llms.txt: lo standard che guida i modelli di IA attraverso il tuo sito
Per quasi tre decenni, due file sono stati sufficienti per indicare ai motori di ricerca come trattare il tuo sito: robots.txt per i permessi e sitemap.xml per la scoperta dei contenuti. Ma l'avvento dei modelli linguistici ha messo in luce un vuoto che nessuno dei due copre: come spieghi a un'IA quale contenuto del tuo sito è importante e come leggerlo senza perdersi tra menu, script e pubblicità? È questa la domanda a cui cerca di rispondere llms.txt.
Cos'è llms.txt
llms.txt è un file in formato Markdown da posizionare nella root del tuo dominio, all'indirizzo https://tuodominio.com/llms.txt. È stato proposto da Jeremy Howard, cofondatore di Answer.AI, nel settembre 2024. L'obiettivo è offrire ai modelli di IA una versione curata, pulita e gerarchizzata dei tuoi contenuti più rilevanti.
Il problema che risolve è concreto: una pagina HTML moderna è piena di rumore — navigazione, banner, JavaScript, finestre dei cookie — e le finestre di contesto dei modelli sono limitate. Chiedere a un'IA di comprendere la tua documentazione a partire dall'HTML grezzo è inefficiente. llms.txt le consegna invece un indice in Markdown con link alle pagine che contano davvero.
Come si struttura
Il formato è volutamente semplice:
- Un'intestazione
H1con il nome del progetto o del sito. - Un paragrafo riassuntivo che spiega cos'è e a chi è rivolto.
- Sezioni con elenchi di link in Markdown alle pagine chiave, ciascuno con una breve nota su cosa troverà l'IA.
Esiste inoltre una variante, llms-full.txt, che non si limita a collegare i contenuti ma li include per intero nello stesso file, pensata perché il modello li possa consumare in una sola lettura.
Non è robots.txt né sitemap.xml
È facile confonderli, ma svolgono funzioni diverse:
- robots.txt stabilisce chi può accedere e a quali percorsi. È un controllo dei permessi.
- sitemap.xml aiuta i motori di ricerca a scoprire tutti i tuoi URL in modo esaustivo, in formato XML pensato per le macchine.
- llms.txt non blocca né elenca tutto: raccomanda e contestualizza ciò che è importante in un formato leggibile sia dagli esseri umani che dai modelli.
In altre parole: robots.txt mette il cancello, sitemap.xml consegna la piantina completa dell'edificio e llms.txt è il portiere che ti dice direttamente a quale piano andare.
Che adozione ha davvero
È bene essere onesti: llms.txt è una proposta della comunità con una crescente trazione, non uno standard ufficiale approvato da un organismo come l'IETF. Moltissimi progetti di documentazione tecnica lo pubblicano già e sono comparsi directory che raccolgono file llms.txt da vari siti. Tuttavia, i grandi fornitori di modelli non hanno confermato di consumarlo in modo garantito durante il training o l'inferenza. Adottarlo oggi è una scommessa a basso costo con una possibile ricompensa, non una soluzione magica.
Come crearlo
Puoi scriverlo a mano in cinque minuti se il tuo sito è piccolo, oppure affidarti a generatori che scansionano il tuo sito e propongono una prima versione. Inizia dall'essenziale: la tua documentazione, le pagine di prodotto e gli articoli che spiegano meglio cosa fai. Tienilo breve e aggiornalo quando i tuoi contenuti cambiano.
Dove si inserisce Spider
llms.txt risolve la metà proattiva del problema: ciò che offri all'IA. L'altra metà è reattiva: sapere quali crawler di IA accedono davvero al tuo sito e se il tuo robots.txt li autorizza. È qui che entra in gioco Spider.es: analizza il tuo dominio rispetto a oltre un centinaio di bot — tra cui GPTBot, ClaudeBot, PerplexityBot e Google-Extended — e ti mostra, bot per bot, chi può effettuare la scansione. Pubblicare un llms.txt e verificare la tua crawlability con Spider sono le due facce di una stessa strategia per l'era dell'IA.