llms.txt : le standard qui guide les IA à travers votre site
Pendant près de trois décennies, deux fichiers ont suffi pour indiquer aux moteurs de recherche comment traiter votre site : robots.txt pour les permissions et sitemap.xml pour la découverte. Mais l'irruption des modèles de langage a mis en évidence un vide qu'aucun des deux ne comble : comment expliquer à une IA quel contenu de votre site est important et comment le lire sans se noyer dans les menus, les scripts et les publicités ? C'est la question à laquelle llms.txt tente de répondre.
Qu'est-ce que llms.txt ?
llms.txt est un fichier au format Markdown placé à la racine de votre domaine, à l'adresse https://votredomaine.com/llms.txt. Il a été proposé par Jeremy Howard, cofondateur de Answer.AI, en septembre 2024. Son objectif est d'offrir aux modèles d'IA une version sélectionnée, épurée et hiérarchisée de votre contenu le plus pertinent.
Le problème qu'il résout est concret : une page HTML moderne regorge de bruit — navigation, bannières, JavaScript, fenêtres de cookies — et les fenêtres de contexte des modèles sont limitées. Demander à une IA de comprendre votre documentation à partir du HTML brut est inefficace. llms.txt lui remet à la place un index en Markdown avec des liens vers les pages qui comptent vraiment.
Comment est-il structuré ?
Le format est volontairement simple :
- Un en-tête
H1avec le nom du projet ou du site. - Un paragraphe de résumé expliquant ce que c'est et à qui c'est destiné.
- Des sections avec des listes de liens en Markdown vers les pages clés, chacune accompagnée d'une courte note sur ce que l'IA y trouvera.
Il existe également une variante, llms-full.txt, qui n'indique pas seulement le contenu mais l'inclut intégralement dans le même fichier, conçue pour que le modèle le consomme en une seule fois.
Ce n'est ni robots.txt ni sitemap.xml
Il est facile de les confondre, mais ils remplissent des fonctions distinctes :
- robots.txt décide qui peut accéder et à quelles pages. C'est un contrôle des permissions.
- sitemap.xml aide les moteurs de recherche à découvrir toutes vos URL de façon exhaustive, dans un XML pensé pour les machines.
- llms.txt ne bloque rien et ne liste pas tout : il recommande et contextualise l'essentiel dans un format lisible aussi bien par les humains que par les modèles.
En d'autres termes : robots.txt pose la porte, sitemap.xml remet le plan complet du bâtiment, et llms.txt est le concierge qui vous dit directement à quel étage aller.
Quelle est sa véritable adoption ?
Soyons honnêtes : llms.txt est une proposition communautaire avec une adoption croissante, et non un standard officiel soutenu par un organisme comme l'IETF. De très nombreux projets de documentation technique le publient déjà et des annuaires répertoriant des fichiers llms.txt de différents sites ont vu le jour. Cependant, les grands fournisseurs de modèles n'ont pas confirmé qu'ils le consomment de façon garantie lors de l'entraînement ou de l'inférence. L'adopter aujourd'hui est un pari à faible coût et à récompense potentielle — pas une solution magique.
Comment créer le vôtre ?
Vous pouvez l'écrire manuellement en cinq minutes si votre site est petit, ou vous appuyer sur des générateurs qui parcourent votre site et proposent une première version. Commencez par l'essentiel : votre documentation, vos pages produits et les articles qui expliquent le mieux ce que vous faites. Gardez-le court et mettez-le à jour lorsque votre contenu évolue.
Où Spider s'inscrit-il dans tout cela ?
llms.txt résout la moitié proactive du problème : ce que vous offrez à l'IA. L'autre moitié est réactive : savoir quels crawlers d'IA accèdent vraiment à votre site et si votre robots.txt leur ouvre la voie. C'est là qu'intervient Spider.es : il analyse votre domaine face à plus d'une centaine de bots — dont GPTBot, ClaudeBot, PerplexityBot ou Google-Extended — et vous indique, bot par bot, qui peut vous crawler. Publier un llms.txt et vérifier votre crawlabilité avec Spider sont les deux faces d'une même stratégie pour l'ère de l'IA.