robots.txt, 30 anni dopo: dalla nascita del web all'era dell'IA
Pochi elementi del web hanno invecchiato così bene come un umile file di testo. robots.txt è nato nel 1994, quando il web contava appena qualche migliaio di siti, e tre decenni dopo rimane la prima linea di dialogo tra il tuo sito e i robot che lo percorrono. La sua storia è, in buona misura, la storia di come internet ha imparato a convivere con le macchine che lo scansionano.
Un accordo tra gentiluomini
Il protocollo fu proposto dall'ingegnere Martijn Koster nel 1994, dopo che un crawler mal configurato aveva saturato un server. L'idea era semplice ed elegante: un file nella radice del sito, /robots.txt, dove il proprietario indica ai bot quali parti possono visitare e quali no. Non è mai stata una barriera tecnica, bensì un accordo tra gentiluomini: i bot rispettosi lo seguono volontariamente.
Da convenzione a standard ufficiale
Per quasi tre decenni, robots.txt ha funzionato come una convenzione di fatto che tutti rispettavano, ma che nessun organismo aveva formalizzato. Questo è cambiato nel settembre 2022, quando l'IETF ha pubblicato il RFC 9309, il Robots Exclusion Protocol, promosso in gran parte da Google. Finalmente, le regole che il settore dava per scontate sono state scritte in modo ufficiale e senza ambiguità.
Come funziona, in sintesi
La meccanica è rimasta quasi invariata:
User-agentidentifica il bot a cui si rivolge la regola.DisalloweAllowsegnano i percorsi vietati o consentiti.- Sono ammessi caratteri jolly (
*e$) e la regola più specifica ha la precedenza. Sitemappunta alla mappa del sito.
Semplice, leggibile e portabile: funziona allo stesso modo su qualsiasi server e con qualsiasi bot che decida di rispettarlo.
La sfida dell'era dell'IA
Il vero banco di prova è arrivato con i crawler di intelligenza artificiale. Negli ultimi anni, robots.txt si è riempito di nomi nuovi — GPTBot, ClaudeBot, Google-Extended, PerplexityBot — mentre i publisher cercano di decidere chi può usare i loro contenuti per addestrare modelli o generare risposte. Il protocollo del 1994 è diventato, senza volerlo, il campo di battaglia del dibattito sull'IA e sul diritto d'autore.
I suoi limiti restano intatti
Vale la pena ricordare cosa robots.txt non è. Non blocca tecnicamente nessuno: un bot malevolo può ignorarlo completamente. Non protegge contenuti sensibili — per quello esistono l'autenticazione e i permessi del server — e non garantisce che una pagina non venga indicizzata se altri la collegano. È una dichiarazione di intenti, non un muro.
Come ti aiuta Spider
Trent'anni dopo, la domanda chiave è sempre la stessa: le tue regole stanno facendo quello che pensi? Spider.es interpreta il tuo robots.txt esattamente come farebbe ogni bot e ti mostra, rispetto a oltre un centinaio di crawler — da Googlebot agli ultimi rastreatori IA —, chi può accedere a ogni parte del tuo sito. Il modo migliore per rendere onore a uno standard così longevo è assicurarsi che il tuo sia scritto correttamente.