Meta robots y X-Robots-Tag: guía completa de directivas

Publicado el 1 de abril de 2026

Cuando necesitas control a nivel de página o de recurso sobre cómo los motores de búsqueda tratan tu contenido, dos mecanismos están en el centro del SEO moderno: la etiqueta meta robots (un elemento HTML) y el X-Robots-Tag (una cabecera de respuesta HTTP). Juntos te permiten indicar a los crawlers si deben indexar una página, seguir sus enlaces, mostrar una copia en caché, presentar un fragmento (snippet) o incluso mostrar una vista previa de imagen, todo sin tocar el robots.txt. Este artículo es una inmersión técnica profunda en cada directiva, cómo funciona la segmentación por bot, qué ocurre cuando las reglas entran en conflicto y los errores que tropiezan incluso a los equipos más experimentados.

Meta robots vs X-Robots-Tag: qué es cada uno

La etiqueta meta robots

Colocada dentro del <head> de un documento HTML, la etiqueta meta robots es la forma más conocida de emitir directivas de indexación:

<meta name="robots" content="noindex, nofollow">

El atributo name identifica el destinatario (todos los bots cuando es robots, o un crawler específico como googlebot). El atributo content contiene una lista de directivas separadas por comas. Como reside dentro del HTML, solo funciona para documentos que los navegadores y crawlers analizan como páginas web.

La cabecera X-Robots-Tag

El X-Robots-Tag logra el mismo resultado pero a nivel de la capa HTTP:

X-Robots-Tag: noindex, nofollow

Al ser una cabecera de respuesta, funciona con cualquier tipo de recurso — PDFs, imágenes, archivos de vídeo, feeds JSON, sitemaps XML — no solo páginas HTML. Esto la hace indispensable para controlar recursos no HTML que los motores de búsqueda podrían indexar de otro modo.

También puedes dirigirte a un bot específico añadiendo un prefijo a las directivas:

X-Robots-Tag: googlebot: noindex

Referencia completa de directivas

noindex

Indica al crawler que no añada la página al índice de búsqueda. Si la página ya está indexada, será eliminada tras el siguiente rastreo. Es la directiva más importante para mantener fuera de los resultados de búsqueda las páginas privadas, de staging o de bajo valor. Nota: el crawler debe poder acceder a la página para leer la directiva. Bloquear la URL en robots.txt impide que el bot vea la etiqueta noindex, por lo que la página podría permanecer indexada basándose en señales externas.

nofollow

Instruye al crawler a no seguir ningún enlace saliente de la página con fines de posicionamiento o descubrimiento. Esto es diferente del atributo rel="nofollow" en elementos <a> individuales, que solo aplica a un enlace concreto. El nofollow a nivel de meta aplica a todos los enlaces de la página. Úsalo con moderación: un nofollow general puede cortar el flujo de autoridad de enlaces internos e impedir que se descubran páginas importantes.

noarchive

Impide que los motores de búsqueda muestren una copia en caché de la página en sus resultados. La página puede seguir indexada y aparecer en búsquedas, pero los usuarios no verán un enlace de «Caché». Útil para páginas con contenido sensible al tiempo o información de precios que no debería verse en versión desactualizada.

nosnippet

Impide que el motor de búsqueda muestre cualquier fragmento de texto o vista previa de vídeo en la página de resultados. La página puede seguir posicionándose y apareciendo, pero sin descripción bajo el título. Es una herramienta radical: la mayoría de los sitios se benefician de los snippets, así que aplícala solo cuando los requisitos legales o de privacidad lo exijan.

max-snippet:[número]

Controla la longitud máxima en caracteres del fragmento de texto mostrado en resultados. Por ejemplo, max-snippet:50 limita el snippet a 50 caracteres. Establecerlo en 0 equivale a nosnippet. Establecerlo en -1 significa sin límite: Google puede usar tanto texto como considere útil. Esto te permite ajustar la longitud del snippet sin eliminarlos por completo.

max-image-preview:[valor]

Define el tamaño máximo de las vistas previas de imagen mostradas en resultados de búsqueda. Valores aceptados:

none — sin vista previa de imagen.
standard — imagen de vista previa de tamaño estándar.
large — vista previa más grande, que puede aumentar la visibilidad en Discover y en funciones de SERP con muchas imágenes.

Establecer max-image-preview:large suele recomendarse si quieres que tus páginas sean elegibles para Google Discover y resultados visuales enriquecidos.

max-video-preview:[número]

Establece la duración máxima en segundos para una vista previa de snippet de vídeo. Un valor de 0 desactiva las vistas previas de vídeo. Un valor de -1 permite una duración ilimitada de la vista previa. Esto es relevante para páginas que incrustan contenido de vídeo y quieren controlar cuánto pueden mostrar los motores de búsqueda.

unavailable_after:[fecha]

Indica al motor de búsqueda que deje de mostrar la página después de una fecha y hora específicas. El formato sigue RFC 850 o ISO 8601. Tras la fecha indicada, la página se trata como si tuviera una directiva noindex. Perfecto para páginas de eventos, promociones limitadas o ofertas de empleo que deberían desaparecer automáticamente de los resultados cuando caducan.

<meta name="robots" content="unavailable_after: 2026-06-30T23:59:59+00:00">

notranslate

Indica a Google que no ofrezca una traducción de la página en los resultados de búsqueda. La página original sigue apareciendo, pero los usuarios que navegan en otro idioma no verán el enlace «Traducir esta página».

noimageindex

Solicita que las imágenes de la página no se indexen. Ten en cuenta que si la imagen está referenciada desde otra página sin esta directiva, puede indexarse igualmente. Esta directiva no tiene soporte universal en todos los motores de búsqueda.

Segmentación por bot

Ambos mecanismos soportan la segmentación por crawlers específicos. En la etiqueta meta, sustituye robots por el nombre del bot:

<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noarchive">

Puedes incluir múltiples etiquetas meta, cada una dirigida a un bot diferente. Las directivas en una etiqueta específica de bot anulan la etiqueta genérica robots para ese bot. Por ejemplo:

<meta name="robots" content="noindex">
<meta name="googlebot" content="index">

En este caso, Googlebot ve index (de su etiqueta específica) e ignora el noindex genérico. Todos los demás bots siguen la regla genérica y no indexan. Esto es poderoso para escenarios en los que quieres que el contenido esté en un motor de búsqueda pero no en otros.

Con la cabecera X-Robots-Tag, la segmentación por bot usa un prefijo:

X-Robots-Tag: googlebot: nosnippet
X-Robots-Tag: bingbot: noarchive

Pueden aparecer múltiples cabeceras X-Robots-Tag en la misma respuesta HTTP, cada una con su propio prefijo de bot y directivas.

Reglas de prioridad cuando las directivas entran en conflicto

Entender cómo los motores de búsqueda resuelven señales contradictorias es fundamental. Las reglas generales son:

La directiva más restrictiva prevalece. Si una etiqueta meta robots dice index y la cabecera X-Robots-Tag dice noindex, la página no será indexada. Los motores de búsqueda combinan todas las directivas aplicables y aplican la interpretación más restrictiva.
Las directivas específicas de bot anulan las genéricas para ese bot. Una etiqueta <meta name="googlebot"> tiene prioridad sobre <meta name="robots"> para Googlebot específicamente.
El bloqueo en robots.txt impide la lectura de directivas. Si robots.txt prohíbe una URL, el crawler nunca accede a la página, nunca lee la etiqueta meta ni la cabecera, y por tanto nunca procesa la directiva. Una página bloqueada con una etiqueta noindex puede permanecer indexada porque el bot nunca vio la instrucción.
Ambas fuentes se combinan. Meta robots y X-Robots-Tag no son mutuamente excluyentes, sino aditivas. Un crawler lee ambas y fusiona todas las directivas aplicables en un único conjunto de instrucciones.

Errores comunes y cómo evitarlos

Bloquear el rastreo y esperar que noindex funcione

Este es el error más frecuente. Una página está bloqueada en robots.txt y también tiene <meta name="robots" content="noindex">. Como el bot no puede acceder a la página, nunca ve la directiva noindex. La página puede permanecer en el índice indefinidamente basándose en enlaces entrantes y texto ancla. Solución: si quieres desindexar una página, permite el rastreo para que el bot pueda leer la etiqueta noindex.

Aplicar noindex a páginas paginadas o filtradas sin cuidado

Marcar las páginas de listado paginadas como noindex puede dejar huérfanos los productos o artículos enlazados desde esas páginas profundas. Los motores de búsqueda pueden dejar de seguir los enlaces internos porque las páginas que los contienen están excluidas del índice. Solución: mantén las páginas paginadas indexables, usa rel="canonical" apuntando al listado principal o utiliza noindex, follow para permitir el descubrimiento de enlaces mientras evitas la inflación del índice.

Usar nofollow en enlaces internos para «esculpir PageRank»

Hace años, los SEOs usaban nofollow interno para canalizar la autoridad de enlace. Google ha declarado que la autoridad sigue consumiéndose — simplemente se evapora en lugar de redistribuirse. Solución: usa una arquitectura de sitio adecuada y controles de rastreo en su lugar.

Olvidar X-Robots-Tag en recursos no HTML

Los PDFs, imágenes y otros archivos multimedia no pueden llevar una etiqueta meta. Si no deben indexarse, la única opción es la cabecera X-Robots-Tag. Muchos equipos olvidan configurar su servidor web o CDN para añadir esta cabecera en los tipos de contenido no HTML. Solución: añade reglas a nivel de servidor (en Apache, Nginx o tu CDN) para inyectar cabeceras X-Robots-Tag en los tipos de archivo que lo necesiten.

Dejar entornos de staging o desarrollo sin noindex

Los sitios de staging que son accidentalmente públicos y carecen de una directiva noindex pueden indexarse, creando problemas de contenido duplicado con el sitio de producción. Solución: protege siempre los entornos de staging con autenticación o, como mínimo, una etiqueta meta noindex y una cabecera X-Robots-Tag a nivel de todo el sitio.

Ignorar la directiva unavailable_after para contenido efímero

Las páginas de eventos y promociones limitadas que permanecen en los resultados meses después de caducar crean una mala experiencia de usuario. Solución: usa unavailable_after con la fecha de caducidad para que la página se desindexe automáticamente cuando el contenido deje de ser relevante.

Cómo auditar tus directivas con Spider.es

Spider.es rastrea tu sitio como lo hacen los bots de los motores de búsqueda, leyendo tanto las etiquetas meta robots como las cabeceras X-Robots-Tag para cada URL. El informe de auditoría señala:

Páginas con directivas contradictorias (por ejemplo, noindex en la cabecera pero index en la etiqueta meta).
Páginas bloqueadas por robots.txt que también llevan directivas de indexación que el bot nunca verá.
Recursos no HTML que carecen de cabecera X-Robots-Tag cuando podrían necesitarla.
Fechas unavailable_after caducadas que deberían haber activado la desindexación.

Ejecutar un rastreo periódico y revisar estas señales asegura que tus controles de indexación funcionan como se pretende y no están fallando silenciosamente.

Reflexiones finales

Las etiquetas meta robots y las cabeceras X-Robots-Tag son los instrumentos de precisión del control de rastreo. Mientras que robots.txt es una puerta amplia, estas directivas te permiten ajustar con finura qué se indexa, cómo aparece en los resultados y cuándo caduca. Domina el conjunto de directivas, comprende las reglas de prioridad, evita los errores comunes y audita regularmente. Tu presencia en búsquedas depende de ello.

Volver al blog

spider.es

Resumen del dominio

robots.txt

Archivos adicionales

Meta robots

Cabeceras