検索エンジンのクロールボットとは何か(そしてなぜ重要か)

Web では多くの場合、まず静かな訪問が行われます。Google や Bing、音声アシスタントにページが登場するよりも前に、クロールボット — 自動化されたプログラム — がアクセスし、コンテンツを見つけ、読み、分類します。彼らはインターネットの偵察部隊のような存在で、リンクをたどり、ドキュメントをダウンロードし、コードを解釈し、サイトが定めたルールを(守ろうと)しながら得た情報を検索インデックスへ送り返します。ボットの正体動き方必要としているものを理解することは、検索順位を高めパフォーマンスの不測のトラブルを避け正当なトラフィックと不正なアクセスを見分ける上で非常に重要です。本記事は Spider.es のために、技術担当とビジネス担当の両方を視野に入れた要点まとめです。


簡潔で正確な定義

クロールボットとは、特定の目的(例:インデックス化プレビュー生成アシスタント・集約サービスアーカイブ)のためにURL を自動的に訪れてコンテンツやメタデータを取得するソフトウェアエージェントです。Google や Bing といった検索エンジン、SNS のカード生成、Siri や Spotlight のようなアシスタント、Internet Archive などが主な例です。

きちんとしたボットは独自の User-Agent を名乗り、robots.txt やメタタグ/ヘッダーで定義されたルールを尊重します。さらに最近のクローラーは、ヘッドレス Chromium などを用いてJavaScript を実行しレンダリングも行うため、実際のユーザー体験に非常に近い視点を持っています。

クロールの標準を形づくる主要ボット

ブログ一覧へ戻る