robots.txt, 30 anni dopo: dalla nascita del web all'era dell'IA

Pubblicato il 12 giugno 2026

Pochi elementi del web hanno invecchiato così bene come un umile file di testo. robots.txt è nato nel 1994, quando il web contava appena qualche migliaio di siti, e tre decenni dopo rimane la prima linea di dialogo tra il tuo sito e i robot che lo percorrono. La sua storia è, in buona misura, la storia di come internet ha imparato a convivere con le macchine che lo scansionano.

Un accordo tra gentiluomini

Il protocollo fu proposto dall'ingegnere Martijn Koster nel 1994, dopo che un crawler mal configurato aveva saturato un server. L'idea era semplice ed elegante: un file nella radice del sito, /robots.txt, dove il proprietario indica ai bot quali parti possono visitare e quali no. Non è mai stata una barriera tecnica, bensì un accordo tra gentiluomini: i bot rispettosi lo seguono volontariamente.

Da convenzione a standard ufficiale

Per quasi tre decenni, robots.txt ha funzionato come una convenzione di fatto che tutti rispettavano, ma che nessun organismo aveva formalizzato. Questo è cambiato nel settembre 2022, quando l'IETF ha pubblicato il RFC 9309, il Robots Exclusion Protocol, promosso in gran parte da Google. Finalmente, le regole che il settore dava per scontate sono state scritte in modo ufficiale e senza ambiguità.

Come funziona, in sintesi

La meccanica è rimasta quasi invariata:

User-agent identifica il bot a cui si rivolge la regola.
Disallow e Allow segnano i percorsi vietati o consentiti.
Sono ammessi caratteri jolly (* e $) e la regola più specifica ha la precedenza.
Sitemap punta alla mappa del sito.

Semplice, leggibile e portabile: funziona allo stesso modo su qualsiasi server e con qualsiasi bot che decida di rispettarlo.

La sfida dell'era dell'IA

Il vero banco di prova è arrivato con i crawler di intelligenza artificiale. Negli ultimi anni, robots.txt si è riempito di nomi nuovi — GPTBot, ClaudeBot, Google-Extended, PerplexityBot — mentre i publisher cercano di decidere chi può usare i loro contenuti per addestrare modelli o generare risposte. Il protocollo del 1994 è diventato, senza volerlo, il campo di battaglia del dibattito sull'IA e sul diritto d'autore.

I suoi limiti restano intatti

Vale la pena ricordare cosa robots.txt non è. Non blocca tecnicamente nessuno: un bot malevolo può ignorarlo completamente. Non protegge contenuti sensibili — per quello esistono l'autenticazione e i permessi del server — e non garantisce che una pagina non venga indicizzata se altri la collegano. È una dichiarazione di intenti, non un muro.

Come ti aiuta Spider

Trent'anni dopo, la domanda chiave è sempre la stessa: le tue regole stanno facendo quello che pensi? Spider.es interpreta il tuo robots.txt esattamente come farebbe ogni bot e ti mostra, rispetto a oltre un centinaio di crawler — da Googlebot agli ultimi rastreatori IA —, chi può accedere a ogni parte del tuo sito. Il modo migliore per rendere onore a uno standard così longevo è assicurarsi che il tuo sia scritto correttamente.

Torna al blog

spider.es

Panoramica dominio

robots.txt

File aggiuntivi

Meta robots

Header