robots.txt, 30 ans après : des débuts du web à l'ère de l'IA
Peu d'éléments du web ont aussi bien vieilli qu'un humble fichier texte brut. robots.txt est né en 1994, quand le web comptait à peine quelques milliers de sites, et trois décennies plus tard il reste la première ligne de dialogue entre votre site et les robots qui le parcourent. Son histoire est, à bien des égards, celle de la façon dont internet a appris à cohabiter avec les machines qui l'explorent.
Un accord entre gentlemen
Le protocole a été proposé par l'ingénieur Martijn Koster en 1994, après qu'un crawler mal configuré eut saturé un serveur. L'idée était simple et élégante : un fichier à la racine du site, /robots.txt, où le propriétaire indique aux bots quelles parties ils peuvent visiter et lesquelles sont interdites. Ce n'a jamais été une barrière technique, mais un accord entre gentlemen : les bots bien élevés le respectent volontairement.
De convention à standard officiel
Pendant près de trois décennies, robots.txt a fonctionné comme une convention de facto que tout le monde suivait, sans qu'aucun organisme ne l'ait formalisée. Cela a changé en septembre 2022, quand l'IETF a publié le RFC 9309, le Robots Exclusion Protocol, porté en grande partie par Google. Enfin, les règles que l'industrie tenait pour acquises ont été consignées de façon officielle et sans ambiguïté.
Comment ça fonctionne, en substance
La mécanique a peu changé :
User-agentidentifie le bot auquel la règle s'adresse.DisallowetAllowdéfinissent les chemins interdits ou autorisés.- Les caractères génériques (
*et$) sont admis, et la règle la plus spécifique l'emporte. Sitemappointe vers votre plan de site.
Simple, lisible et portable : il fonctionne de la même façon sur n'importe quel serveur, face à n'importe quel bot qui choisit de l'obéir.
Le défi de l'ère de l'IA
Le véritable test de maturité est arrivé avec les crawlers d'intelligence artificielle. Ces dernières années, robots.txt s'est enrichi de nouveaux noms — GPTBot, ClaudeBot, Google-Extended, PerplexityBot — à mesure que les éditeurs tentent de décider qui peut utiliser leur contenu pour entraîner des modèles ou générer des réponses. Le protocole de 1994 est devenu, sans l'avoir cherché, le terrain d'affrontement du débat sur l'IA et les droits d'auteur.
Ses limites restent entières
Il convient de rappeler ce que robots.txt n'est pas. Il ne bloque techniquement personne : un bot malveillant peut l'ignorer totalement. Il ne protège pas les contenus sensibles — c'est l'affaire de l'authentification et des permissions serveur — et ne garantit pas qu'une page ne sera pas indexée si d'autres sites la lient. C'est une déclaration d'intention, pas un mur.
Comment Spider vous aide
Trente ans après, la question clé reste la même : vos règles font-elles vraiment ce que vous croyez ? Spider.es interprète votre robots.txt exactement comme le ferait chaque bot et vous montre, face à plus d'une centaine de crawlers — de Googlebot aux derniers robots d'IA —, qui peut accéder à chaque partie de votre site. La meilleure façon de rendre hommage à un standard aussi pérenne, c'est de s'assurer que le vôtre est bien écrit.