ITメモ
SEO(検索エンジン最適化)




【SiteMap】「サイトマップ」の「ファイル形式」の「比較」

【SiteMap】
「サイトマップ」の「ファイル形式」の「比較」







はじめに


サイトマップには、

・XML サイトマップ
・「RSS」「mRSS」「Atom1.0」
・テキスト サイトマップ

などの種類がある。

現在では、
「XML サイトマップ」が主流となっていて、
「XML サイトマップ」があれば事足りる状況になっている。


詳しくは、
牡蠣をご覧ください。


Back

「サイトマップ」の「ファイル形式」の「比較」


「サイト全体のページ」を決められた書式で、一覧化した「ファイル」。

「ファイル形式」には、

・XML サイトマップ
・「RSS」「mRSS」「Atom1.0」
・テキスト サイトマップ

などがある。

それぞれに特性があり、
向き、不向きがある。



サイトマップ形式の比較

サイトマップ形式説明長所短所
XMLサイトマップ 「XML」での「サイトマップ」は、
最も用途の広い形式。
簡単に拡張できるのがメリット。
ページだけでなく、画像、動画、ニュース コンテンツに関するデータを追加することも可能。
長所:
拡張しやすい。
さまざまな目的に利用可能。
「URL」に関するほとんどの情報を提供できる。
ほとんどの「コンテンツ管理システム(CMS)」でサイトマップが自動生成される。
また、CMS ユーザー向けのサイトマップ プラグインがたくさん用意されている。
短所:
扱いが面倒な場合がある。
「大規模なサイト」「URLが頻繁に変更されるサイト」では、「マッピング管理」が複雑になる場合あり。
「RSS」「mRSS」「Atom1.0」 「RSS」「mRSS」「Atom1.0」形式のサイトマップは、
構造は、「XML」の「サイトマップ」と似ている。
「CMS」によって自動的に作成される。提供するのに手間がかからない。
長所:
ほとんどの「CMS」で、「RSS」「Atom」 向けフィードが自動的に生成される。
動画に関する 「Google」向け情報を提供するために使用可能。
短所:
「HTML」などのインデックス登録可能なテキスト コンテンツのほかに提供できるのは、
動画に関する情報のみで、画像やニュースの情報は提供できない。
扱いが面倒な場合がある。
テキストサイトマップ 最もシンプルな形式の「サイトマップ」。
記述できるのは、「HTML」などの「インデックス登録可能なページ」の「URL」のみ。
長所:
特に大規模なサイトの場合、「正規ページの指定」や「維持管理」が簡単にできる。
短所:
HTMLなどのインデックス登録可能なテキスト コンテンツに限定されている。


Back

サイトマップの書式


サイトマップには、

・HTML
・「RSS」「mRSS」「Atom 1.0」 ・XML

のファイル形式がある。
現在は、「XML」サイトマップのみで十分だとされいる。


「HTML」サイトマップは、
視認性優れ、ユーザーがWeb全体を把握しやすく、目的のページにたどり着きやすいというメリットがある。
ユーザーへの視認性を重視した構成になるため、各ウェブページで書式が異なりやすいので、
「クローラー」へのサイトマップとしては、あまり良くない。

「XML」サイトマップは、
「XML」コード主体のテキストコードになっていて、
一般の人が見ても、よくわからないプログラムコードにしか見えない。
書式も決まっているので、
同じ書式で記述されるため、
「クローラー」にとっては処理がしやすい内容となる。



「XML」サイトマップのサンプルコード

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://SampleWeb.com/</loc>
<lastmod>2017-01-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>

<url>
<loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>

<url>
<loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>

</urlset>







XML タグ定義

属性必須説明
<urlset>必須 ファイルの他のタグを囲み、現在のプロトコル標準を参照します。
<url> 必須 各 URL エントリの親タグです。 その他のタグは、このタグ内に含めます。
<loc>必須 ページの URL です。 ウェブ サーバーによっては、http などのプロトコルから始め、末尾にスラッシュを含める必要があります。 この値は 2,048 文字以下で指定する必要があります。
<lastmod>オプション ファイルの最終更新日です。 この日付は W3C Datetime 形式で記述します。 必要な場合は、時刻の部分を省略して YYYY-MM-DD の形式で記述することもできます。 このタグは、サーバーが返す If-Modified-Since (304) ヘッダーとは別のものです。検索エンジンは、両方のソースからの情報を別々に使用することがあります。
<changefreq>オプション ページの更新頻度を表示する属性。
検索エンジンが、確認する頻度を決定するのに参考にする値。
設定しても、確実にクローラーが必ず確認に来るというものではなく、あくまで参考にする値。

always=アクセスするたびに内容が更新されるドキュメントに使用。
hourly=1時間に1回。
daily=1日に1回。
weekly=1週間に1回。
monthly=1ヵ月に1回。
yearly=1年にい1回。
never=アーカイブ ページの URL に使用
<priority>オプション サイト内の中での優先度を指定する属性。
同一サイトの他のページに比べての優先度を指定するのに指定する。
クローラーに重要なページを知らせるために使用する。

指定する値は、「0.0~1.0」までの値で指定。
ページのデフォルト値は、「0.5」。



エンティティのエスケープ処理

サイトマップファイルは、「UTF-8 エンコード」で作成する。
URLクエリなどのデータ値では、下記のエスケープシーケンスを使用してURLを作成する必要がある。
URLでは、すべてエスケープ処理を行う必要があって、サーバーが読み取り可能な形式でエンコードする必要がある。

エスケープシーケンス
文字エスケープコード
アンパサンド&&amp;
一重引用符'&apos;
二重引用符"&quot;
不等記号 (より大)>&gt;
不等記号 (より小)<&lt;


Back