llms.txt: der Standard, der KI-Modelle durch deine Website führt

Fast drei Jahrzehnte lang genügten zwei Dateien, um Suchmaschinen mitzuteilen, wie sie deine Website behandeln sollen: robots.txt für Berechtigungen und sitemap.xml für die Entdeckung. Doch der Einzug der Sprachmodelle hat eine Lücke aufgedeckt, die keines der beiden füllt: Wie erklärt man einer KI, welche Inhalte deiner Website wichtig sind und wie sie diese lesen soll, ohne sich in Menüs, Skripten und Werbung zu verlieren? Genau diese Frage versucht llms.txt zu beantworten.

Was ist llms.txt?

llms.txt ist eine Datei im Markdown-Format, die im Wurzelverzeichnis deiner Domain abgelegt wird, unter https://deinedomain.com/llms.txt. Vorgeschlagen wurde sie von Jeremy Howard, Mitgründer von Answer.AI, im September 2024. Ihr Ziel ist es, KI-Modellen eine kuratierte, aufgeräumte und hierarchisch geordnete Version deiner relevantesten Inhalte bereitzustellen.

Das Problem, das sie löst, ist konkret: Eine moderne HTML-Seite steckt voller Rauschen — Navigation, Banner, JavaScript, Cookie-Fenster — und die Kontextfenster der Modelle sind begrenzt. Einer KI beizubringen, deine Dokumentation aus rohem HTML zu verstehen, ist ineffizient. llms.txt liefert ihr stattdessen ein Markdown-Inhaltsverzeichnis mit Links zu den Seiten, die wirklich zählen.

Wie ist sie aufgebaut?

Das Format ist bewusst einfach gehalten:

  • Eine H1-Überschrift mit dem Namen des Projekts oder der Website.
  • Ein zusammenfassender Absatz, der erklärt, was es ist und für wen.
  • Abschnitte mit Markdown-Linklisten zu den wichtigsten Seiten, jeweils mit einem kurzen Hinweis, was die KI dort finden wird.

Daneben gibt es eine Variante, llms-full.txt, die die Inhalte nicht nur verlinkt, sondern vollständig in derselben Datei einbettet — gedacht dafür, dass das Modell alles auf einmal konsumieren kann.

Sie ist weder robots.txt noch sitemap.xml

Es ist leicht, sie zu verwechseln, doch sie erfüllen unterschiedliche Funktionen:

  • robots.txt legt fest, wer zugreifen darf und auf welche Pfade. Sie ist eine Zugriffskontrolle.
  • sitemap.xml hilft Suchmaschinen, alle deine URLs erschöpfend zu entdecken, in einem maschinenlesbaren XML-Format.
  • llms.txt blockiert nichts und listet nicht alles auf: Sie empfiehlt und kontextualisiert das Wesentliche in einem Format, das sowohl für Menschen als auch für Modelle lesbar ist.

Anders ausgedrückt: robots.txt stellt die Eingangstür auf, sitemap.xml liefert den vollständigen Grundriss des Gebäudes, und llms.txt ist der Concierge, der dir direkt sagt, in welches Stockwerk du gehen sollst.

Wie weit ist die Verbreitung tatsächlich?

Ehrlichkeit ist hier angebracht: llms.txt ist ein Community-Vorschlag mit wachsender Akzeptanz, kein offizieller Standard, der von einer Organisation wie dem IETF verabschiedet wurde. Viele technische Dokumentationsprojekte veröffentlichen sie bereits, und es sind Verzeichnisse entstanden, die llms.txt-Dateien verschiedener Websites sammeln. Allerdings haben die großen Modellanbieter nicht bestätigt, dass sie diese Dateien beim Training oder bei der Inferenz garantiert auswerten. Sie heute einzuführen ist eine kostengünstige Wette mit möglichem Gewinn — keine Wunderlösung.

Wie erstellst du deine eigene?

Wenn deine Website überschaubar ist, kannst du sie in fünf Minuten von Hand schreiben. Alternativ gibt es Generatoren, die deine Website durchsuchen und einen ersten Entwurf vorschlagen. Beginne mit dem Wesentlichen: deiner Dokumentation, deinen Produktseiten und den Artikeln, die am besten erklären, was du tust. Halte sie kurz und aktualisiere sie, wenn sich deine Inhalte ändern.

Wo passt Spider hinein?

llms.txt löst die proaktive Hälfte des Problems: das, was du der KI anbietest. Die andere Hälfte ist reaktiv: zu wissen, welche KI-Crawler tatsächlich auf deine Website zugreifen und ob deine robots.txt ihnen den Durchgang erlaubt. Hier kommt Spider.es ins Spiel: Es analysiert deine Domain gegenüber mehr als hundert Bots — darunter GPTBot, ClaudeBot, PerplexityBot und Google-Extended — und zeigt dir, Bot für Bot, wer dich crawlen darf. Eine llms.txt zu veröffentlichen und deine Crawlbarkeit mit Spider zu überprüfen sind die zwei Seiten derselben Strategie für das KI-Zeitalter.

Zurück zum Blog