robots.txt, 30 anos depois: do nascimento da web à era da IA

Poucas peças da web envelheceram tão bem quanto um simples arquivo de texto simples. O robots.txt nasceu em 1994, quando a web mal tinha alguns milhares de sites, e três décadas depois continua sendo a primeira linha de diálogo entre o seu site e os robôs que o percorrem. Sua história é, em grande medida, a história de como a internet aprendeu a conviver com as máquinas que a rastreiam.

Um acordo entre cavalheiros

O protocolo foi proposto pelo engenheiro Martijn Koster em 1994, depois que um crawler mal configurado sobrecarregou um servidor. A ideia era simples e elegante: um arquivo na raiz do site, /robots.txt, onde o proprietário indica aos bots quais partes podem visitar e quais não. Nunca foi uma barreira técnica, mas sim um acordo entre cavalheiros: os bots bem-comportados o respeitam voluntariamente.

De convenção a padrão oficial

Durante quase três décadas, o robots.txt funcionou como uma convenção de fato que todos seguiam, mas que nenhuma organização havia formalizado. Isso mudou em setembro de 2022, quando o IETF publicou o RFC 9309, o Robots Exclusion Protocol, impulsionado em grande parte pelo Google. Por fim, as regras que a indústria considerava óbvias foram escritas de forma oficial e sem ambiguidades.

Como funciona, em essência

A mecânica praticamente não mudou:

  • User-agent identifica o bot ao qual a regra se destina.
  • Disallow e Allow marcam os caminhos proibidos ou permitidos.
  • São aceitos curingas (* e $) e a regra mais específica prevalece.
  • Sitemap aponta para o seu mapa do site.

Simples, legível e portátil: funciona da mesma forma em qualquer servidor e com qualquer bot que decida obedecê-lo.

O desafio da era da IA

O grande teste de maturidade chegou com os crawlers de inteligência artificial. Nos últimos anos, o robots.txt se encheu de nomes novos — GPTBot, ClaudeBot, Google-Extended, PerplexityBot — à medida que os editores tentam decidir quem pode usar seu conteúdo para treinar modelos ou gerar respostas. O protocolo de 1994 se tornou, sem o pretender, o campo de batalha do debate sobre IA e direitos autorais.

Seus limites continuam lá

Vale lembrar o que o robots.txt não é. Não bloqueia tecnicamente ninguém: um bot malicioso pode ignorá-lo completamente. Não protege conteúdo sensível — para isso existem a autenticação e as permissões do servidor — e não garante que uma página não seja indexada se outros sites a linkarem. É uma declaração de intenções, não um muro.

Como o Spider pode ajudar

Três décadas depois, a pergunta fundamental continua sendo a mesma: as suas regras estão fazendo o que você acredita que fazem? Spider.es interpreta o seu robots.txt da mesma forma que cada bot o faria e mostra, frente a mais de uma centena de crawlers — do Googlebot aos mais recentes rastreadores de IA —, quem pode acessar cada parte do seu site. A melhor forma de honrar um padrão tão longevo é garantir que o seu esteja bem escrito.

Voltar ao blog