robots.txt, 30 Jahre später: von den Anfängen des Webs bis zur KI-Ära

Kaum ein Element des Webs hat so gut gealtert wie eine schlichte Klartextdatei. robots.txt entstand 1994, als das Web gerade einmal einige tausend Websites zählte, und drei Jahrzehnte später ist sie immer noch die erste Kommunikationslinie zwischen deiner Website und den Robots, die sie durchforsten. Ihre Geschichte ist in vielerlei Hinsicht die Geschichte davon, wie das Internet gelernt hat, mit den Maschinen zu leben, die es crawlen.

Ein Abkommen unter Gentlemen

Das Protokoll wurde 1994 von dem Ingenieur Martijn Koster vorgeschlagen, nachdem ein schlecht konfigurierter Crawler einen Server zum Absturz gebracht hatte. Die Idee war einfach und elegant: eine Datei im Stammverzeichnis der Website, /robots.txt, in der der Betreiber den Bots mitteilt, welche Bereiche sie besuchen dürfen und welche nicht. Es war nie eine technische Barriere, sondern ein Abkommen unter Gentlemen: Wohlerzogene Bots respektieren es freiwillig.

Von einer Konvention zum offiziellen Standard

Fast drei Jahrzehnte lang funktionierte robots.txt als De-facto-Konvention, die alle befolgten, die jedoch kein Gremium offiziell festgeschrieben hatte. Das änderte sich im September 2022, als das IETF den RFC 9309 veröffentlichte — das Robots Exclusion Protocol, das maßgeblich von Google vorangetrieben worden war. Endlich wurden die Regeln, die die Branche als selbstverständlich betrachtete, offiziell und unmissverständlich schriftlich festgehalten.

Wie es funktioniert — im Kern

Die Mechanik hat sich kaum verändert:

  • User-agent identifiziert den Bot, an den sich die Regel richtet.
  • Disallow und Allow kennzeichnen gesperrte oder erlaubte Pfade.
  • Wildcards (* und $) sind erlaubt, und die spezifischere Regel hat Vorrang.
  • Sitemap verweist auf deine Sitemap.

Einfach, lesbar und portabel: Es funktioniert auf jedem Server und gegenüber jedem Bot, der es befolgen möchte.

Die Herausforderung der KI-Ära

Die große Bewährungsprobe kam mit den KI-Crawlern. In den letzten Jahren hat sich robots.txt mit neuen Namen gefüllt — GPTBot, ClaudeBot, Google-Extended, PerplexityBot —, da Publisher zunehmend entscheiden wollen, wer ihre Inhalte zum Training von Modellen oder zur Generierung von Antworten verwenden darf. Das Protokoll von 1994 ist, ohne es beabsichtigt zu haben, zum Schlachtfeld der Debatte über KI und Urheberrecht geworden.

Seine Grenzen bleiben bestehen

Es lohnt sich, daran zu erinnern, was robots.txt nicht ist. Es blockiert technisch niemanden: Ein bösartiger Bot kann es schlicht ignorieren. Es schützt keine sensiblen Inhalte — dafür sind Authentifizierung und Server-Berechtigungen zuständig — und es garantiert nicht, dass eine Seite nicht doch indexiert wird, wenn andere auf sie verlinken. Es ist eine Absichtserklärung, kein Schutzwall.

Wie Spider dir hilft

Drei Jahrzehnte später bleibt die entscheidende Frage dieselbe: Tun deine Regeln wirklich das, was du glaubst? Spider.es interpretiert deine robots.txt genauso, wie es jeder Bot täte, und zeigt dir — für über hundert Crawler von Googlebot bis zu den neuesten KI-Scannern —, wer auf welchen Teil deiner Website zugreifen darf. Der beste Weg, einem so langlebigen Standard Respekt zu zollen, ist sicherzustellen, dass deiner fehlerfrei geschrieben ist.

Zurück zum Blog