Entendendo as Diretivas Meta Robots e X-Robots-Tag

Quando você precisa de controle no nível de página ou recurso sobre como os mecanismos de busca tratam seu conteúdo, dois mecanismos estão no centro do SEO moderno: a tag meta robots (um elemento HTML) e o X-Robots-Tag (um cabeçalho de resposta HTTP). Juntos, eles permitem que você diga aos crawlers se devem indexar uma página, seguir seus links, exibir uma cópia em cache, mostrar um snippet ou até mesmo exibir uma prévia de imagem — tudo sem mexer no robots.txt. Este artigo é um mergulho técnico profundo em cada diretiva, como funciona a segmentação por bot, o que acontece quando regras conflitam e os erros que pegam até equipes experientes.

Meta robots tag vs X-Robots-Tag: o que é o quê

A tag meta robots

Posicionada dentro do <head> de um documento HTML, a tag meta robots é a forma mais familiar de emitir diretivas de indexação:

<meta name="robots" content="noindex, nofollow">

O atributo name identifica o alvo (todos os bots quando definido como robots, ou um crawler específico como googlebot). O atributo content contém uma lista separada por vírgulas de diretivas. Como ela reside dentro do HTML, só funciona para documentos que navegadores e crawlers realmente analisam como páginas web.

O cabeçalho HTTP X-Robots-Tag

O X-Robots-Tag alcança o mesmo resultado, mas na camada HTTP:

X-Robots-Tag: noindex, nofollow

Por ser um cabeçalho de resposta, funciona em qualquer tipo de recurso — PDFs, imagens, arquivos de vídeo, feeds JSON, sitemaps XML — não apenas páginas HTML. Isso o torna indispensável para controlar assets não-HTML que os mecanismos de busca podem indexar.

Você também pode segmentar um bot específico usando um prefixo nas diretivas:

X-Robots-Tag: googlebot: noindex

A referência completa de diretivas

noindex

Diz ao crawler para não adicionar a página ao índice de busca. Se a página já está indexada, será removida após o próximo rastreamento. Esta é a diretiva mais importante para manter páginas privadas, de staging ou de baixo valor fora dos resultados de busca. Nota: o crawler ainda precisa poder acessar a página para ler a diretiva. Bloquear a URL no robots.txt impede que o bot veja a tag noindex, então a página pode permanecer indexada com base em sinais externos.

nofollow

Instrui o crawler a não seguir nenhum link externo na página para fins de ranking ou descoberta. Isso é diferente do atributo rel="nofollow" em elementos <a> individuais, que se aplica a um único link. O nofollow no nível meta se aplica a todos os links na página. Use com moderação — nofollow generalizado pode cortar o fluxo de link equity interno e impedir que páginas importantes sejam descobertas.

noarchive

Impede que mecanismos de busca mostrem uma cópia em cache da página em seus resultados. A página ainda pode ser indexada e aparecer na busca, mas os usuários não verão um link "Em cache". Útil para páginas com conteúdo sensível ao tempo ou informações de preço que não devem ser vistas em versão desatualizada.

nosnippet

Impede que o mecanismo de busca exiba qualquer snippet de texto ou prévia de vídeo na página de resultados. A página ainda pode ranquear e aparecer, mas sem uma descrição abaixo do título. Esta é uma ferramenta pesada — a maioria dos sites se beneficia de snippets, então aplique-a apenas quando requisitos legais ou de privacidade exigirem.

max-snippet:[número]

Controla o comprimento máximo em caracteres do snippet de texto exibido nos resultados. Por exemplo, max-snippet:50 limita o snippet a 50 caracteres. Definir como 0 equivale a nosnippet. Definir como -1 significa sem limite — o Google pode usar tanto texto quanto considerar útil. Isso permite ajustar o comprimento do snippet sem removê-lo totalmente.

max-image-preview:[configuração]

Define o tamanho máximo das prévias de imagem exibidas nos resultados de busca. Valores aceitos:

  • none — sem prévia de imagem.
  • standard — uma imagem de prévia de tamanho padrão.
  • large — uma prévia maior, que pode aumentar a visibilidade no Discover e em recursos de SERP com destaque visual.

Definir max-image-preview:large é frequentemente recomendado se você quer que suas páginas sejam elegíveis para o Google Discover e resultados visuais ricos.

max-video-preview:[número]

Define a duração máxima em segundos para uma prévia de snippet de vídeo. Um valor de 0 desabilita prévias de vídeo. Um valor de -1 permite duração ilimitada de prévia. Isso é relevante para páginas que incorporam conteúdo de vídeo e querem controlar quanto dele os mecanismos de busca podem exibir.

unavailable_after:[data]

Diz ao mecanismo de busca para parar de exibir a página após uma data e hora específicas. O formato segue RFC 850 ou ISO 8601. Após a data especificada, a página é tratada como se tivesse uma diretiva noindex. Perfeito para páginas de eventos, promoções por tempo limitado ou vagas de emprego que devem desaparecer automaticamente dos resultados quando expiram.

<meta name="robots" content="unavailable_after: 2026-06-30T23:59:59+00:00">

notranslate

Diz ao Google para não oferecer tradução da página nos resultados de busca. A página original ainda aparece, mas usuários navegando em outro idioma não verão o link "Traduzir esta página".

noimageindex

Solicita que imagens na página não sejam indexadas. Note que se a imagem é referenciada de outra página sem esta diretiva, ela ainda pode ser indexada. Esta diretiva não é universalmente suportada por todos os mecanismos de busca.

Segmentação por bot

Ambos os mecanismos suportam segmentação de crawlers específicos. Na meta tag, substitua robots pelo nome do bot:

<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noarchive">

Você pode incluir múltiplas meta tags, cada uma endereçando um bot diferente. Diretivas em uma tag específica de bot sobrescrevem a tag genérica robots para aquele bot. Por exemplo:

<meta name="robots" content="noindex">
<meta name="googlebot" content="index">

Neste caso, o Googlebot vê index (da tag específica) e ignora o noindex genérico. Todos os outros bots seguem a regra genérica e não indexam. Isso é poderoso para cenários onde você quer conteúdo em um mecanismo de busca mas não em outros.

Com o cabeçalho X-Robots-Tag, a segmentação por bot usa um prefixo:

X-Robots-Tag: googlebot: nosnippet
X-Robots-Tag: bingbot: noarchive

Múltiplos cabeçalhos X-Robots-Tag podem aparecer na mesma resposta HTTP, cada um com seu próprio prefixo de bot e diretivas.

Regras de prioridade quando diretivas conflitam

Entender como os mecanismos de busca resolvem sinais conflitantes é crítico. As regras gerais são:

  1. A diretiva mais restritiva prevalece. Se uma tag meta robots diz index e o cabeçalho X-Robots-Tag diz noindex, a página não será indexada. Os mecanismos de busca combinam todas as diretivas aplicáveis e aplicam a interpretação mais restritiva.
  2. Diretivas específicas de bot sobrescrevem as genéricas para aquele bot. Uma tag <meta name="googlebot"> tem precedência sobre <meta name="robots"> especificamente para o Googlebot.
  3. Bloqueio pelo robots.txt impede a leitura de diretivas. Se o robots.txt proíbe uma URL, o crawler nunca busca a página, nunca lê a meta tag ou cabeçalho, e portanto nunca processa a diretiva. Uma página bloqueada com tag noindex pode permanecer indexada porque o bot nunca viu a instrução.
  4. Ambas as fontes são combinadas. Meta robots e X-Robots-Tag não são mutuamente exclusivos — são aditivos. Um crawler lê ambos e mescla todas as diretivas aplicáveis em um único conjunto de instruções.

Erros comuns e como evitá-los

Bloquear rastreamento e esperar que noindex funcione

Este é o erro mais frequente. Uma página é proibida no robots.txt e também tem <meta name="robots" content="noindex">. Como o bot não pode buscar a página, ele nunca vê a diretiva noindex. A página pode permanecer no índice indefinidamente com base em links de entrada e texto âncora. Solução: se você quer que uma página seja desindexada, permita o rastreamento para que o bot possa ler a tag noindex.

Aplicar noindex em páginas paginadas ou filtradas descuidadamente

Marcar páginas de listagem paginadas como noindex pode órfã os produtos ou artigos linkados dessas páginas mais profundas. Os mecanismos de busca podem parar de seguir os links internos porque as páginas que os carregam estão excluídas do índice. Solução: mantenha páginas paginadas indexáveis, use rel="canonical" apontando para a listagem principal ou use noindex, follow para permitir a descoberta de links enquanto previne inchaço no índice.

Usar nofollow em links internos para "escultura de PageRank"

Anos atrás, os SEOs usavam nofollow interno para canalizar link equity. O Google declarou que a equity ainda é consumida — ela simplesmente evapora em vez de ser redistribuída. Solução: use arquitetura de site adequada e controles de rastreamento em vez disso.

Esquecer X-Robots-Tag em recursos não-HTML

PDFs, imagens e outros arquivos de mídia não podem carregar uma meta tag. Se não devem ser indexados, a única opção é o cabeçalho X-Robots-Tag. Muitas equipes esquecem de configurar seu servidor web ou CDN para adicionar este cabeçalho para tipos de conteúdo não-HTML. Solução: adicione regras no nível do servidor (no Apache, Nginx ou seu CDN) para injetar cabeçalhos X-Robots-Tag nos tipos de arquivo que precisam.

Deixar ambientes de staging ou desenvolvimento sem noindex

Sites de staging acidentalmente públicos e sem diretiva noindex podem ser indexados, criando problemas de conteúdo duplicado com o site de produção. Solução: sempre proteja ambientes de staging com autenticação ou, no mínimo, uma tag meta noindex e cabeçalho X-Robots-Tag em todo o site.

Ignorar a diretiva unavailable_after para conteúdo efêmero

Páginas de evento e promoções limitadas que permanecem nos resultados de busca meses após expirarem criam uma experiência ruim para o usuário. Solução: use unavailable_after com a data de expiração para que a página seja automaticamente desindexada quando o conteúdo se tornar irrelevante.

Como auditar suas diretivas com o Spider.es

O Spider.es rastreia seu site da mesma forma que os bots de mecanismos de busca, lendo tanto meta robots tags quanto cabeçalhos X-Robots-Tag para cada URL. O relatório de auditoria sinaliza:

  • Páginas com diretivas conflitantes (ex.: noindex no cabeçalho mas index na meta tag).
  • Páginas bloqueadas pelo robots.txt que também carregam diretivas de indexação que o bot nunca verá.
  • Recursos não-HTML sem cabeçalho X-Robots-Tag quando um pode ser necessário.
  • Datas unavailable_after expiradas que deveriam ter acionado a desindexação.

Executar um rastreamento regular e revisar esses sinais garante que seus controles de indexação estejam funcionando conforme pretendido — e não falhando silenciosamente.

Considerações finais

As tags meta robots e os cabeçalhos X-Robots-Tag são os instrumentos de precisão do controle de rastreamento. Enquanto o robots.txt é um portão amplo, essas diretivas permitem ajustar com precisão o que é indexado, como aparece nos resultados e quando expira. Domine o conjunto de diretivas, entenda as regras de prioridade, evite as armadilhas comuns e audite regularmente. Sua presença na busca depende disso.

Voltar ao blog