llms.txt: lo standard che guida i modelli di IA attraverso il tuo sito

Pubblicato il 12 giugno 2026

Per quasi tre decenni, due file sono stati sufficienti per indicare ai motori di ricerca come trattare il tuo sito: robots.txt per i permessi e sitemap.xml per la scoperta dei contenuti. Ma l'avvento dei modelli linguistici ha messo in luce un vuoto che nessuno dei due copre: come spieghi a un'IA quale contenuto del tuo sito è importante e come leggerlo senza perdersi tra menu, script e pubblicità? È questa la domanda a cui cerca di rispondere llms.txt.

Cos'è llms.txt

llms.txt è un file in formato Markdown da posizionare nella root del tuo dominio, all'indirizzo https://tuodominio.com/llms.txt. È stato proposto da Jeremy Howard, cofondatore di Answer.AI, nel settembre 2024. L'obiettivo è offrire ai modelli di IA una versione curata, pulita e gerarchizzata dei tuoi contenuti più rilevanti.

Il problema che risolve è concreto: una pagina HTML moderna è piena di rumore — navigazione, banner, JavaScript, finestre dei cookie — e le finestre di contesto dei modelli sono limitate. Chiedere a un'IA di comprendere la tua documentazione a partire dall'HTML grezzo è inefficiente. llms.txt le consegna invece un indice in Markdown con link alle pagine che contano davvero.

Come si struttura

Il formato è volutamente semplice:

Un'intestazione H1 con il nome del progetto o del sito.
Un paragrafo riassuntivo che spiega cos'è e a chi è rivolto.
Sezioni con elenchi di link in Markdown alle pagine chiave, ciascuno con una breve nota su cosa troverà l'IA.

Esiste inoltre una variante, llms-full.txt, che non si limita a collegare i contenuti ma li include per intero nello stesso file, pensata perché il modello li possa consumare in una sola lettura.

Non è robots.txt né sitemap.xml

È facile confonderli, ma svolgono funzioni diverse:

robots.txt stabilisce chi può accedere e a quali percorsi. È un controllo dei permessi.
sitemap.xml aiuta i motori di ricerca a scoprire tutti i tuoi URL in modo esaustivo, in formato XML pensato per le macchine.
llms.txt non blocca né elenca tutto: raccomanda e contestualizza ciò che è importante in un formato leggibile sia dagli esseri umani che dai modelli.

In altre parole: robots.txt mette il cancello, sitemap.xml consegna la piantina completa dell'edificio e llms.txt è il portiere che ti dice direttamente a quale piano andare.

Che adozione ha davvero

È bene essere onesti: llms.txt è una proposta della comunità con una crescente trazione, non uno standard ufficiale approvato da un organismo come l'IETF. Moltissimi progetti di documentazione tecnica lo pubblicano già e sono comparsi directory che raccolgono file llms.txt da vari siti. Tuttavia, i grandi fornitori di modelli non hanno confermato di consumarlo in modo garantito durante il training o l'inferenza. Adottarlo oggi è una scommessa a basso costo con una possibile ricompensa, non una soluzione magica.

Come crearlo

Puoi scriverlo a mano in cinque minuti se il tuo sito è piccolo, oppure affidarti a generatori che scansionano il tuo sito e propongono una prima versione. Inizia dall'essenziale: la tua documentazione, le pagine di prodotto e gli articoli che spiegano meglio cosa fai. Tienilo breve e aggiornalo quando i tuoi contenuti cambiano.

Dove si inserisce Spider

llms.txt risolve la metà proattiva del problema: ciò che offri all'IA. L'altra metà è reattiva: sapere quali crawler di IA accedono davvero al tuo sito e se il tuo robots.txt li autorizza. È qui che entra in gioco Spider.es: analizza il tuo dominio rispetto a oltre un centinaio di bot — tra cui GPTBot, ClaudeBot, PerplexityBot e Google-Extended — e ti mostra, bot per bot, chi può effettuare la scansione. Pubblicare un llms.txt e verificare la tua crawlability con Spider sono le due facce di una stessa strategia per l'era dell'IA.

Torna al blog

spider.es

Panoramica dominio

robots.txt

File aggiuntivi

Meta robots

Header