サイトマップには、
・HTML
・「RSS」「mRSS」「Atom 1.0」
・XML
のファイル形式がある。
現在は、「XMLサイトマップ」のみで十分だとされいる。
「HTML」サイトマップは、
視認性優れ、ユーザーがWeb全体を把握しやすく、目的のページにたどり着きやすいというメリットがある。
ユーザーへの視認性を重視した構成になるため、各ウェブページで書式が異なりやすいので、
「クローラー」へのサイトマップとしては、あまり良くない。
「XMLサイトマップ」は、
「XML」コード主体のテキストコードになっていて、
一般の人が見ても、よくわからないプログラムコードにしか見えない。
書式も決まっているので、
同じ書式で記述されるため、
「クローラー」にとっては処理がしやすい内容となる。
「XMLサイトマップ」のサンプルコード
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://SampleWeb.com/</loc>
<lastmod>2017-01-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>
</urlset>
XML タグ定義
属性 | 必須 | 説明 |
<urlset> | 必須 |
ファイルの他のタグを囲み、現在のプロトコル標準を参照します。
|
<url> | 必須 |
各 URL エントリの親タグです。 その他のタグは、このタグ内に含めます。
|
<loc> | 必須 |
ページの URL です。 ウェブ サーバーによっては、http などのプロトコルから始め、末尾にスラッシュを含める必要があります。 この値は 2,048 文字以下で指定する必要があります。
|
<lastmod> | オプション |
ファイルの最終更新日です。 この日付は W3C Datetime 形式で記述します。 必要な場合は、時刻の部分を省略して YYYY-MM-DD の形式で記述することもできます。
このタグは、サーバーが返す If-Modified-Since (304) ヘッダーとは別のものです。検索エンジンは、両方のソースからの情報を別々に使用することがあります。
|
<changefreq> | オプション |
ページの更新頻度を表示する属性。
検索エンジンが、確認する頻度を決定するのに参考にする値。
設定しても、確実にクローラーが必ず確認に来るというものではなく、あくまで参考にする値。
always=アクセスするたびに内容が更新されるドキュメントに使用。
hourly=1時間に1回。
daily=1日に1回。
weekly=1週間に1回。
monthly=1ヵ月に1回。
yearly=1年にい1回。
never=アーカイブ ページの URL に使用
|
<priority> | オプション |
サイト内の中での優先度を指定する属性。
同一サイトの他のページに比べての優先度を指定するのに指定する。
クローラーに重要なページを知らせるために使用する。
指定する値は、「0.0~1.0」までの値で指定。
ページのデフォルト値は、「0.5」。
|
エンティティのエスケープ処理
サイトマップファイルは、「UTF-8 エンコード」で作成する。
URLクエリなどのデータ値では、下記のエスケープシーケンスを使用してURLを作成する必要がある。
URLでは、すべてエスケープ処理を行う必要があって、サーバーが読み取り可能な形式でエンコードする必要がある。
エスケープシーケンス
文字 | エスケープ | コード |
アンパサンド | & | & |
一重引用符 | ' | ' |
二重引用符 | " | " |
不等記号 (より大) | > | > |
不等記号 (より小) | < | < |
Back