llms.txt:AIモデルをあなたのサイトに正しく導くための新標準
この約30年間、検索エンジンに対してウェブサイトの扱い方を伝えるファイルは2つで十分でした。アクセス制御のためのrobots.txtと、ページ発見のためのsitemap.xmlです。しかし大規模言語モデルの台頭により、どちらも対応できないギャップが浮き彫りになりました。AIに対して「サイトの中で何が重要なのか、どう読み取ればよいのか」を伝える手段がなかったのです。その問いへの答えがllms.txtです。
llms.txtとは何か
llms.txtは、ドメインのルート(https://yourdomain.com/llms.txt)に設置するMarkdown形式のファイルです。2024年9月、Answer.AIの共同創設者であるJeremy Howardによって提案されました。目的は、AIモデルに対してサイトの最重要コンテンツを整理された、クリーンで階層化された形式で提供することです。
解決しようとしている問題は明確です。現代のHTMLページはナビゲーション、バナー、JavaScript、クッキーバナーといったノイズに満ちており、モデルのコンテキストウィンドウには限りがあります。生のHTMLからAIにドキュメントを理解させようとするのは非効率です。llms.txtはその代わりに、本当に重要なページへのリンクを含むMarkdownのインデックスを渡します。
ファイルの構造
フォーマットは意図的にシンプルに設計されています:
- プロジェクトまたはサイト名を示す
H1見出し。 - 何のサイトで誰のためのものかを説明する要約段落。
- 主要ページへのMarkdownリンクのリストを含むセクション(各リンクにAIが参照すべき内容の短いメモ付き)。
また、llms-full.txtというバリアントも存在します。リンクだけでなくコンテンツそのものをファイル内に含める形式で、モデルが一度に全体を取り込めるよう設計されています。
robots.txtやsitemap.xmlとは別物
混同しやすいですが、それぞれ異なる役割を持っています:
- robots.txtは誰がどのパスにアクセスできるかを制御します。アクセス権限の管理です。
- sitemap.xmlは、機械向けのXML形式ですべてのURLを網羅的に列挙し、検索エンジンのクロール支援に使われます。
- llms.txtはブロックも完全列挙もしません。重要なコンテンツを人間にもモデルにも読みやすい形式で推薦し文脈付けするものです。
例えるなら、robots.txtが扉を管理し、sitemap.xmlが建物の完全な見取り図を渡すとしたら、llms.txtはどの階に行くべきかを直接教えてくれる案内係のような存在です。
実際の普及状況
正直に言うと、llms.txtはIETFのような標準化機関が承認した公式仕様ではなく、コミュニティ主導の提案として徐々に広まっている段階です。多数の技術ドキュメントプロジェクトがすでにこのファイルを公開しており、様々なサイトのllms.txtを収集するディレクトリも登場しています。ただし、主要なモデルプロバイダーがトレーニングや推論時にこのファイルを確実に参照しているとは明言していません。今これを導入することはコストが低く将来的なリターンが見込めるアクションですが、万能の解決策ではありません。
作成方法
サイトが小規模であれば5分もあれば手書きできます。あるいは、サイトを巡回して初期バージョンを生成するツールを活用することもできます。まず核心から始めましょう:ドキュメント、製品ページ、自分のサービスを最もよく説明している記事。短くまとめ、コンテンツが変わったら都度更新してください。
Spiderとの関係
llms.txtは問題の能動的な側面を解決します:AIに対して何を提供するかです。もう一つの側面は受動的なもの:実際にどのAIクローラーがサイトにアクセスしていて、robots.txtで許可されているかどうかを把握することです。そこで役立つのがSpider.esです。GPTBot、ClaudeBot、PerplexityBot、Google-Extendedを含む100以上のボットに対してドメインを分析し、ボットごとにクロールが許可されているかどうかを可視化します。llms.txtを公開してSpiderでクロール設定を確認する——この2つがAI時代のウェブ戦略の両輪です。