CloudflareのAIクローラーブロックとpay per crawl:ウェブサイトとAIボットの新たな攻防

過去20年間、ウェブを支えてきた暗黙の契約はシンプルでした:検索エンジンがコンテンツをクロールする代わりに、トラフィックを送り返す。しかしAIクローラーはその契約を壊しました。モデルのトレーニングやユーザーへの直接回答のためにコンテンツをクロールしながら、多くの場合、元のソースにトラフィックを返しません。2025年7月、インターネットトラフィックの相当部分を仲介するCloudflareが動きました。

デフォルトでのブロック

Cloudflareは、ネットワークに新規参加するドメインに対してAIクローラーをデフォルトでブロックし始めました。各ボットを個別に発見して拒否する必要はなくなり、サイト所有者はAI企業がコンテンツにアクセスすることを明示的に許可するかどうかを能動的に決定できます。これは思想的な転換です:「明示的に禁止しない限りすべて許可」から「明示的に許可しない限りすべてブロック」へ。

「pay per crawl」とは何か

より野心的な施策がpay per crawl(クロール課金)のベータ版リリースです。これはサイト運営者がAI企業に対してコンテンツアクセス料を徴収できる市場を作るという構想です。技術的には、ほとんど使われてこなかったHTTPステータスコード402 Payment Requiredを活用します。AIクローラーがページをリクエストすると、サーバーは402と利用条件を返します。AI企業が支払いに同意すればアクセスが認められます。

これにより、小規模なサイト運営者でも各ラボと個別に契約交渉することなく、AIクロールを収益化するための手段を初めて手にすることができます。

サイト運営者にとっての意味

コンテンツを公開している人にとって、この仕組みは3つの選択肢を開きます:

  • 無料で許可する:クリックを得られなくてもAIの回答内での露出を狙う。
  • ブロックする:トレーニングデータや無引用回答からコンテンツを守る。
  • 課金する:自分のコンテンツからモデルが生み出す価値の一部を回収しようとする。

普遍的な正解はありません。ニュースメディア、ECサイト、個人ブログではそれぞれインセンティブが大きく異なります。

残る課題

冷静に見ておく必要があります。このシステムが機能するのは、クローラーが正直に自身を識別する場合に限られます。User-Agentを偽るボットやCloudflareの外からクロールするボットは制御をすり抜けます。また、大手ラボが広く支払いに応じるかどうか、価格がどのように設定されるかも不透明です。これは市場における最初の動きであり、まだ発展途上の段階です。

robots.txtは依然として基盤

pay per crawlはCloudflareのダッシュボードから管理しますが、robots.txtの代わりにはなりません:あくまで補完する仕組みです。robots.txtは、CDNプロバイダーに依存しないポータブルな公開宣言として、どのボットを受け入れるかを示し続けます。課金やブロックを始める前に、現在の設定を正確に把握しておくことが重要です。

Spiderが役立つ理由

AIボットを許可するか、ブロックするか、課金するかを決めるには、まずボット側から見たときに自分のサイトがどう見えているかを知る必要があります。Spider.esは、GPTBot、ClaudeBot、PerplexityBot、Google-Extendedをはじめとする主要なAIクローラーに対してドメインを分析し、robots.txtとHTTPヘッダーがそれぞれのボットに何を許可しているかをひとつひとつ可視化します。Cloudflareの設定を変更する前の、正しい判断のための出発点です。

ブログ一覧へ戻る