Meta robots y X-Robots-Tag: guía completa de directivas
Cuando necesitas control a nivel de página o de recurso sobre cómo los motores de búsqueda tratan tu contenido, dos mecanismos están en el centro del SEO moderno: la etiqueta meta robots (un elemento HTML) y el X-Robots-Tag (una cabecera de respuesta HTTP). Juntos te permiten indicar a los crawlers si deben indexar una página, seguir sus enlaces, mostrar una copia en caché, presentar un fragmento (snippet) o incluso mostrar una vista previa de imagen, todo sin tocar el robots.txt. Este artículo es una inmersión técnica profunda en cada directiva, cómo funciona la segmentación por bot, qué ocurre cuando las reglas entran en conflicto y los errores que tropiezan incluso a los equipos más experimentados.
Meta robots vs X-Robots-Tag: qué es cada uno
La etiqueta meta robots
Colocada dentro del <head> de un documento HTML, la etiqueta meta robots es la forma más conocida de emitir directivas de indexación:
<meta name="robots" content="noindex, nofollow">
El atributo name identifica el destinatario (todos los bots cuando es robots, o un crawler específico como googlebot). El atributo content contiene una lista de directivas separadas por comas. Como reside dentro del HTML, solo funciona para documentos que los navegadores y crawlers analizan como páginas web.
La cabecera X-Robots-Tag
El X-Robots-Tag logra el mismo resultado pero a nivel de la capa HTTP:
X-Robots-Tag: noindex, nofollow
Al ser una cabecera de respuesta, funciona con cualquier tipo de recurso — PDFs, imágenes, archivos de vídeo, feeds JSON, sitemaps XML — no solo páginas HTML. Esto la hace indispensable para controlar recursos no HTML que los motores de búsqueda podrían indexar de otro modo.
También puedes dirigirte a un bot específico añadiendo un prefijo a las directivas:
X-Robots-Tag: googlebot: noindex
Referencia completa de directivas
noindex
Indica al crawler que no añada la página al índice de búsqueda. Si la página ya está indexada, será eliminada tras el siguiente rastreo. Es la directiva más importante para mantener fuera de los resultados de búsqueda las páginas privadas, de staging o de bajo valor. Nota: el crawler debe poder acceder a la página para leer la directiva. Bloquear la URL en robots.txt impide que el bot vea la etiqueta noindex, por lo que la página podría permanecer indexada basándose en señales externas.
nofollow
Instruye al crawler a no seguir ningún enlace saliente de la página con fines de posicionamiento o descubrimiento. Esto es diferente del atributo rel="nofollow" en elementos <a> individuales, que solo aplica a un enlace concreto. El nofollow a nivel de meta aplica a todos los enlaces de la página. Úsalo con moderación: un nofollow general puede cortar el flujo de autoridad de enlaces internos e impedir que se descubran páginas importantes.
noarchive
Impide que los motores de búsqueda muestren una copia en caché de la página en sus resultados. La página puede seguir indexada y aparecer en búsquedas, pero los usuarios no verán un enlace de «Caché». Útil para páginas con contenido sensible al tiempo o información de precios que no debería verse en versión desactualizada.
nosnippet
Impide que el motor de búsqueda muestre cualquier fragmento de texto o vista previa de vídeo en la página de resultados. La página puede seguir posicionándose y apareciendo, pero sin descripción bajo el título. Es una herramienta radical: la mayoría de los sitios se benefician de los snippets, así que aplícala solo cuando los requisitos legales o de privacidad lo exijan.
max-snippet:[número]
Controla la longitud máxima en caracteres del fragmento de texto mostrado en resultados. Por ejemplo, max-snippet:50 limita el snippet a 50 caracteres. Establecerlo en 0 equivale a nosnippet. Establecerlo en -1 significa sin límite: Google puede usar tanto texto como considere útil. Esto te permite ajustar la longitud del snippet sin eliminarlos por completo.
max-image-preview:[valor]
Define el tamaño máximo de las vistas previas de imagen mostradas en resultados de búsqueda. Valores aceptados:
- none — sin vista previa de imagen.
- standard — imagen de vista previa de tamaño estándar.
- large — vista previa más grande, que puede aumentar la visibilidad en Discover y en funciones de SERP con muchas imágenes.
Establecer max-image-preview:large suele recomendarse si quieres que tus páginas sean elegibles para Google Discover y resultados visuales enriquecidos.
max-video-preview:[número]
Establece la duración máxima en segundos para una vista previa de snippet de vídeo. Un valor de 0 desactiva las vistas previas de vídeo. Un valor de -1 permite una duración ilimitada de la vista previa. Esto es relevante para páginas que incrustan contenido de vídeo y quieren controlar cuánto pueden mostrar los motores de búsqueda.
unavailable_after:[fecha]
Indica al motor de búsqueda que deje de mostrar la página después de una fecha y hora específicas. El formato sigue RFC 850 o ISO 8601. Tras la fecha indicada, la página se trata como si tuviera una directiva noindex. Perfecto para páginas de eventos, promociones limitadas o ofertas de empleo que deberían desaparecer automáticamente de los resultados cuando caducan.
<meta name="robots" content="unavailable_after: 2026-06-30T23:59:59+00:00">
notranslate
Indica a Google que no ofrezca una traducción de la página en los resultados de búsqueda. La página original sigue apareciendo, pero los usuarios que navegan en otro idioma no verán el enlace «Traducir esta página».
noimageindex
Solicita que las imágenes de la página no se indexen. Ten en cuenta que si la imagen está referenciada desde otra página sin esta directiva, puede indexarse igualmente. Esta directiva no tiene soporte universal en todos los motores de búsqueda.
Segmentación por bot
Ambos mecanismos soportan la segmentación por crawlers específicos. En la etiqueta meta, sustituye robots por el nombre del bot:
<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noarchive">
Puedes incluir múltiples etiquetas meta, cada una dirigida a un bot diferente. Las directivas en una etiqueta específica de bot anulan la etiqueta genérica robots para ese bot. Por ejemplo:
<meta name="robots" content="noindex">
<meta name="googlebot" content="index">
En este caso, Googlebot ve index (de su etiqueta específica) e ignora el noindex genérico. Todos los demás bots siguen la regla genérica y no indexan. Esto es poderoso para escenarios en los que quieres que el contenido esté en un motor de búsqueda pero no en otros.
Con la cabecera X-Robots-Tag, la segmentación por bot usa un prefijo:
X-Robots-Tag: googlebot: nosnippet
X-Robots-Tag: bingbot: noarchive
Pueden aparecer múltiples cabeceras X-Robots-Tag en la misma respuesta HTTP, cada una con su propio prefijo de bot y directivas.
Reglas de prioridad cuando las directivas entran en conflicto
Entender cómo los motores de búsqueda resuelven señales contradictorias es fundamental. Las reglas generales son:
- La directiva más restrictiva prevalece. Si una etiqueta meta robots dice
indexy la cabecera X-Robots-Tag dicenoindex, la página no será indexada. Los motores de búsqueda combinan todas las directivas aplicables y aplican la interpretación más restrictiva. - Las directivas específicas de bot anulan las genéricas para ese bot. Una etiqueta
<meta name="googlebot">tiene prioridad sobre<meta name="robots">para Googlebot específicamente. - El bloqueo en robots.txt impide la lectura de directivas. Si
robots.txtprohíbe una URL, el crawler nunca accede a la página, nunca lee la etiqueta meta ni la cabecera, y por tanto nunca procesa la directiva. Una página bloqueada con una etiquetanoindexpuede permanecer indexada porque el bot nunca vio la instrucción. - Ambas fuentes se combinan. Meta robots y X-Robots-Tag no son mutuamente excluyentes, sino aditivas. Un crawler lee ambas y fusiona todas las directivas aplicables en un único conjunto de instrucciones.
Errores comunes y cómo evitarlos
Bloquear el rastreo y esperar que noindex funcione
Este es el error más frecuente. Una página está bloqueada en robots.txt y también tiene <meta name="robots" content="noindex">. Como el bot no puede acceder a la página, nunca ve la directiva noindex. La página puede permanecer en el índice indefinidamente basándose en enlaces entrantes y texto ancla. Solución: si quieres desindexar una página, permite el rastreo para que el bot pueda leer la etiqueta noindex.
Aplicar noindex a páginas paginadas o filtradas sin cuidado
Marcar las páginas de listado paginadas como noindex puede dejar huérfanos los productos o artículos enlazados desde esas páginas profundas. Los motores de búsqueda pueden dejar de seguir los enlaces internos porque las páginas que los contienen están excluidas del índice. Solución: mantén las páginas paginadas indexables, usa rel="canonical" apuntando al listado principal o utiliza noindex, follow para permitir el descubrimiento de enlaces mientras evitas la inflación del índice.
Usar nofollow en enlaces internos para «esculpir PageRank»
Hace años, los SEOs usaban nofollow interno para canalizar la autoridad de enlace. Google ha declarado que la autoridad sigue consumiéndose — simplemente se evapora en lugar de redistribuirse. Solución: usa una arquitectura de sitio adecuada y controles de rastreo en su lugar.
Olvidar X-Robots-Tag en recursos no HTML
Los PDFs, imágenes y otros archivos multimedia no pueden llevar una etiqueta meta. Si no deben indexarse, la única opción es la cabecera X-Robots-Tag. Muchos equipos olvidan configurar su servidor web o CDN para añadir esta cabecera en los tipos de contenido no HTML. Solución: añade reglas a nivel de servidor (en Apache, Nginx o tu CDN) para inyectar cabeceras X-Robots-Tag en los tipos de archivo que lo necesiten.
Dejar entornos de staging o desarrollo sin noindex
Los sitios de staging que son accidentalmente públicos y carecen de una directiva noindex pueden indexarse, creando problemas de contenido duplicado con el sitio de producción. Solución: protege siempre los entornos de staging con autenticación o, como mínimo, una etiqueta meta noindex y una cabecera X-Robots-Tag a nivel de todo el sitio.
Ignorar la directiva unavailable_after para contenido efímero
Las páginas de eventos y promociones limitadas que permanecen en los resultados meses después de caducar crean una mala experiencia de usuario. Solución: usa unavailable_after con la fecha de caducidad para que la página se desindexe automáticamente cuando el contenido deje de ser relevante.
Cómo auditar tus directivas con Spider.es
Spider.es rastrea tu sitio como lo hacen los bots de los motores de búsqueda, leyendo tanto las etiquetas meta robots como las cabeceras X-Robots-Tag para cada URL. El informe de auditoría señala:
- Páginas con directivas contradictorias (por ejemplo,
noindexen la cabecera peroindexen la etiqueta meta). - Páginas bloqueadas por
robots.txtque también llevan directivas de indexación que el bot nunca verá. - Recursos no HTML que carecen de cabecera X-Robots-Tag cuando podrían necesitarla.
- Fechas
unavailable_aftercaducadas que deberían haber activado la desindexación.
Ejecutar un rastreo periódico y revisar estas señales asegura que tus controles de indexación funcionan como se pretende y no están fallando silenciosamente.
Reflexiones finales
Las etiquetas meta robots y las cabeceras X-Robots-Tag son los instrumentos de precisión del control de rastreo. Mientras que robots.txt es una puerta amplia, estas directivas te permiten ajustar con finura qué se indexa, cómo aparece en los resultados y cuándo caduca. Domina el conjunto de directivas, comprende las reglas de prioridad, evita los errores comunes y audita regularmente. Tu presencia en búsquedas depende de ello.