ITメモ

【SEO】「検索ロボット」の「クロール」を即す方法

【SEO】
「検索ロボット」の「クロール」を即す方法







はじめに


「Google」では、
「WEBサイト」の「ページ情報」を
「SiteMap」を使って渡すことによって、
「検索ロボット」に、「巡回」を「即す」ことが可能となっている。



詳しくは、下記をご覧ください。


Back

「検索ロボット」の「クロール」を即す方法


「検索ロボット」の「クロール」を即す方法には、

・「SiteMap」を作成して登録する

という方法がある。


「SiteMap」を「作成」し、
「Google」へと「登録」することで、
「検索ロボット」に、全ページを巡回するように即すことができる。

「更新」「新規作成」した「WEBベージ」を追加することで、
新たに「検索ロボット」に巡回するように即すことができる。


「SiteMap」の「登録」は、
「Google Search Console」で、登録することが可能。


Back

「SiteMap」を「登録」する方法


「検索ロボット」の「クロール」を即す方法の「SiteMap」は、
「Google Search Console」にアカウント登録をし、
「WEBサイト」を登録した上で、
「WEBサイト」の「SiteMap」を登録する。



「Google Search Console」に、
「アカウント」を作成して、「WEBサイト」を登録したら、
「SiteMap」の項目に「登録」をするだけ。


「SiteMap」の「登録」は、とても簡単。



「SiteMap」を「登録」する上で、
1番難しいのは、「SiteMap」を作成するところ。


「SiteMap」の決まった「書式」で記述して、
登録をしたい「WEBページ」を全て記述する必要がある。


Back

サイトマップのドキュメント


サイトマップの書式などは、「sitemaps.org」で定義されていて、
日本語でのドキュメントも用意されている。
サイトマップの正確な書式などは、「sitemaps.org」で確認すると良い。


「sitemaps.org」の定義:https://www.sitemaps.org/ja/index.html


Back

サイトマップの書式


サイトマップには、

・HTML
・XML

の2つのファイル形式がある。
現在は、「XML」サイトマップのみで十分だとされいる。


「HTML」サイトマップは、
視認性優れ、ユーザーがWeb全体を把握しやすく、目的のページにたどり着きやすいというメリットがある。
ユーザーへの視認性を重視した構成になるため、各ウェブページで書式が異なりやすいので、
「クローラー」へのサイトマップとしては、あまり良くない。

「XML」サイトマップは、
「XML」コード主体のテキストコードになっていて、
一般の人が見ても、よくわからないプログラムコードにしか見えない。
書式も決まっているので、
同じ書式で記述されるため、
「クローラー」にとっては処理がしやすい内容となる。



「XML」サイトマップのサンプルコード

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://SampleWeb.com/</loc>
<lastmod>2017-01-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>

<url>
<loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>

<url>
<loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>

</urlset>







XML タグ定義

属性必須説明
<urlset>必須 ファイルの他のタグを囲み、現在のプロトコル標準を参照します。
<url> 必須 各 URL エントリの親タグです。 その他のタグは、このタグ内に含めます。
<loc>必須 ページの URL です。 ウェブ サーバーによっては、http などのプロトコルから始め、末尾にスラッシュを含める必要があります。 この値は 2,048 文字以下で指定する必要があります。
<lastmod>オプション ファイルの最終更新日です。 この日付は W3C Datetime 形式で記述します。 必要な場合は、時刻の部分を省略して YYYY-MM-DD の形式で記述することもできます。 このタグは、サーバーが返す If-Modified-Since (304) ヘッダーとは別のものです。検索エンジンは、両方のソースからの情報を別々に使用することがあります。
<changefreq>オプション ページの更新頻度を表示する属性。
検索エンジンが、確認する頻度を決定するのに参考にする値。
設定しても、確実にクローラーが必ず確認に来るというものではなく、あくまで参考にする値。

always=アクセスするたびに内容が更新されるドキュメントに使用。
hourly=1時間に1回。
daily=1日に1回。
weekly=1週間に1回。
monthly=1ヵ月に1回。
yearly=1年にい1回。
never=アーカイブ ページの URL に使用
<priority>オプション サイト内の中での優先度を指定する属性。
同一サイトの他のページに比べての優先度を指定するのに指定する。
クローラーに重要なページを知らせるために使用する。

指定する値は、「0.0~1.0」までの値で指定。
ページのデフォルト値は、「0.5」。



エンティティのエスケープ処理

サイトマップファイルは、「UTF-8 エンコード」で作成する。
URLクエリなどのデータ値では、下記のエスケープシーケンスを使用してURLを作成する必要がある。
URLでは、すべてエスケープ処理を行う必要があって、サーバーが読み取り可能な形式でエンコードする必要がある。

エスケープシーケンス
文字エスケープコード
アンパサンド&&amp;
一重引用符'&apos;
二重引用符"&quot;
不等記号 (より大)>&gt;
不等記号 (より小)<&lt;


Back