llms.txt: o padrão que guia a IA pelo seu site

Durante quase três décadas, dois arquivos foram suficientes para informar os buscadores sobre como tratar seu site: robots.txt para as permissões e sitemap.xml para a descoberta. Mas a chegada dos modelos de linguagem revelou uma lacuna que nenhum deles cobre: como você explica para uma IA qual conteúdo do seu site é relevante e como lê-lo sem se perder em menus, scripts e anúncios? Essa é a pergunta que o llms.txt tenta responder.

O que é llms.txt

llms.txt é um arquivo no formato Markdown colocado na raiz do seu domínio, em https://seudominio.com/llms.txt. Foi proposto por Jeremy Howard, cofundador da Answer.AI, em setembro de 2024. Seu objetivo é oferecer aos modelos de IA uma versão selecionada, limpa e hierarquizada do seu conteúdo mais relevante.

O problema que ele resolve é concreto: uma página HTML moderna está cheia de ruído — navegação, banners, JavaScript, janelas de cookies — e as janelas de contexto dos modelos são limitadas. Pedir a uma IA que compreenda sua documentação a partir do HTML bruto é ineficiente. O llms.txt entrega, em vez disso, um índice em Markdown com links para as páginas que realmente importam.

Como se estrutura

O formato é deliberadamente simples:

  • Um cabeçalho H1 com o nome do projeto ou site.
  • Um parágrafo de resumo explicando o que é e para quem se destina.
  • Seções com listas de links em Markdown para as páginas-chave, cada uma com uma nota curta sobre o que a IA encontrará ali.

Existe também uma variante, llms-full.txt, que não apenas linka o conteúdo, mas o inclui integralmente no mesmo arquivo, pensada para que o modelo o consuma de uma só vez.

Não é robots.txt nem sitemap.xml

É fácil confundi-los, mas cumprem funções distintas:

  • robots.txt decide quem pode acessar e quais caminhos. É um controle de permissões.
  • sitemap.xml ajuda os buscadores a descobrir todas as suas URLs de forma exaustiva, em XML pensado para máquinas.
  • llms.txt não bloqueia nem lista tudo: recomenda e contextualiza o que é importante em um formato legível tanto para pessoas quanto para modelos.

Em outras palavras: o robots.txt coloca a porta, o sitemap.xml entrega a planta completa do edifício e o llms.txt é o porteiro que te diz diretamente a qual andar ir.

Qual é sua adoção na prática

Vale ser honesto: o llms.txt é uma proposta da comunidade com crescente tração, não um padrão oficial respaldado por um organismo como o IETF. Muitos projetos de documentação técnica já o publicam e surgiram diretórios que reúnem arquivos llms.txt de diferentes sites. No entanto, os grandes fornecedores de modelos não confirmaram que o consomem de forma garantida durante o treinamento ou a inferência. Adotá-lo hoje é uma aposta de baixo custo e possível recompensa, não uma solução mágica.

Como criar o seu

Você pode escrevê-lo à mão em cinco minutos se o seu site for pequeno, ou usar geradores que percorrem seu site e propõem uma primeira versão. Comece pelo essencial: sua documentação, suas páginas de produto e os artigos que melhor explicam o que você faz. Mantenha-o curto e atualize-o quando seu conteúdo mudar.

Onde o Spider se encaixa

O llms.txt resolve a metade proativa do problema: o que você oferece à IA. A outra metade é reativa: saber quais crawlers de IA acessam de fato o seu site e se o seu robots.txt os permite. É aí que entra o Spider.es: analisa seu domínio frente a mais de uma centena de bots — incluindo GPTBot, ClaudeBot, PerplexityBot e Google-Extended — e mostra, bot a bot, quem pode rastreá-lo. Publicar um llms.txt e revisar sua rastreabilidade com o Spider são as duas faces de uma mesma estratégia para a era da IA.

Voltar ao blog