robots.txt, 30 anos depois: do nascimento da web à era da IA
Poucas peças da web envelheceram tão bem quanto um simples arquivo de texto simples. O robots.txt nasceu em 1994, quando a web mal tinha alguns milhares de sites, e três décadas depois continua sendo a primeira linha de diálogo entre o seu site e os robôs que o percorrem. Sua história é, em grande medida, a história de como a internet aprendeu a conviver com as máquinas que a rastreiam.
Um acordo entre cavalheiros
O protocolo foi proposto pelo engenheiro Martijn Koster em 1994, depois que um crawler mal configurado sobrecarregou um servidor. A ideia era simples e elegante: um arquivo na raiz do site, /robots.txt, onde o proprietário indica aos bots quais partes podem visitar e quais não. Nunca foi uma barreira técnica, mas sim um acordo entre cavalheiros: os bots bem-comportados o respeitam voluntariamente.
De convenção a padrão oficial
Durante quase três décadas, o robots.txt funcionou como uma convenção de fato que todos seguiam, mas que nenhuma organização havia formalizado. Isso mudou em setembro de 2022, quando o IETF publicou o RFC 9309, o Robots Exclusion Protocol, impulsionado em grande parte pelo Google. Por fim, as regras que a indústria considerava óbvias foram escritas de forma oficial e sem ambiguidades.
Como funciona, em essência
A mecânica praticamente não mudou:
User-agentidentifica o bot ao qual a regra se destina.DisalloweAllowmarcam os caminhos proibidos ou permitidos.- São aceitos curingas (
*e$) e a regra mais específica prevalece. Sitemapaponta para o seu mapa do site.
Simples, legível e portátil: funciona da mesma forma em qualquer servidor e com qualquer bot que decida obedecê-lo.
O desafio da era da IA
O grande teste de maturidade chegou com os crawlers de inteligência artificial. Nos últimos anos, o robots.txt se encheu de nomes novos — GPTBot, ClaudeBot, Google-Extended, PerplexityBot — à medida que os editores tentam decidir quem pode usar seu conteúdo para treinar modelos ou gerar respostas. O protocolo de 1994 se tornou, sem o pretender, o campo de batalha do debate sobre IA e direitos autorais.
Seus limites continuam lá
Vale lembrar o que o robots.txt não é. Não bloqueia tecnicamente ninguém: um bot malicioso pode ignorá-lo completamente. Não protege conteúdo sensível — para isso existem a autenticação e as permissões do servidor — e não garante que uma página não seja indexada se outros sites a linkarem. É uma declaração de intenções, não um muro.
Como o Spider pode ajudar
Três décadas depois, a pergunta fundamental continua sendo a mesma: as suas regras estão fazendo o que você acredita que fazem? Spider.es interpreta o seu robots.txt da mesma forma que cada bot o faria e mostra, frente a mais de uma centena de crawlers — do Googlebot aos mais recentes rastreadores de IA —, quem pode acessar cada parte do seu site. A melhor forma de honrar um padrão tão longevo é garantir que o seu esteja bem escrito.