Por qué Google ignora tus páginas: problemas de indexación resueltos
Publicas una página. Esperas. Los días se convierten en semanas, y la página nunca aparece en Google. Sin impresiones en Search Console, sin tráfico, sin señal de que Google sepa que la página existe. Es una de las experiencias más frustrantes del SEO, y una de las más comunes.
La buena noticia: Google casi siempre te dice por qué ha ignorado una página. La mala noticia: las señales están dispersas entre múltiples herramientas e informes, y las causas raíz van desde errores de configuración obvios hasta defectos arquitectónicos sutiles. Esta guía repasa cada motivo principal por el que Google puede negarse a indexar tu contenido, con pasos prácticos de diagnóstico para cada caso.
1. La directiva noindex
La causa más directa. Si una página lleva una directiva noindex, Google la rastreará pero la excluirá explícitamente del índice.
Dónde puede aparecer noindex:
- Meta etiqueta:
<meta name="robots" content="noindex">en el<head>del HTML. - Cabecera X-Robots-Tag:
X-Robots-Tag: noindexenviada como cabecera de respuesta HTTP. Esta es particularmente insidiosa porque es invisible en el código fuente de la página; necesitas inspeccionar las cabeceras de respuesta directamente.
Cómo diagnosticarlo
- En Google Search Console, ve al informe de Páginas. Busca el estado "Excluida por la etiqueta "noindex"".
- Usa la herramienta de Inspección de URL para comprobar una URL específica. Te mostrará si Google ha detectado un
noindex. - Ejecuta un informe de Spider.es en tu dominio para ver qué bots encuentran directivas
noindexy de dónde proceden. - Comprueba las cabeceras de respuesta HTTP con
curl -Io las DevTools del navegador. Un X-Robots-Tag configurado a nivel de servidor o CDN puede anular lo que tu CMS pretende.
Culpables habituales: entornos de staging cuya configuración noindex se trasladó a producción, plugins del CMS que añaden noindex a páginas de paginación o archivo, y capas de CDN o proxy inverso que inyectan cabeceras X-Robots-Tag.
2. Canonical apuntando a otra parte
La etiqueta rel="canonical" indica a Google cuál es la URL "preferida" de una página. Si la página A declara su canonical como la página B, Google puede indexar la página B e ignorar la A, incluso si la página A tiene contenido único.
Errores frecuentes con canonical
- Canonical auto-referencial mal configurado: una etiqueta canonical que incluye parámetros de consulta, protocolo incorrecto (http vs https) o inconsistencias con la barra final.
- Canonicals generados por el CMS: algunos sistemas apuntan páginas paginadas, vistas filtradas o versiones AMP a objetivos canonical incorrectos.
- Canonicals entre dominios: si sindicas contenido y el canonical del sitio del partner apunta a su propia URL, Google puede elegir su versión en lugar de la tuya.
- Señales contradictorias: el canonical en el HTML dice una cosa, la cabecera HTTP dice otra y el sitemap lista una tercera URL. Google tiene que adivinar, y puede equivocarse.
Cómo diagnosticarlo
Usa la herramienta de Inspección de URL en Search Console. Dentro de "Indexación de páginas", muestra el canonical declarado por el usuario y el canonical seleccionado por Google. Si difieren, tienes un problema.
3. Desperdicio de crawl budget
Google asigna un crawl budget finito a cada sitio, una combinación de la frecuencia con la que quiere rastrear (demanda) y la velocidad a la que tu servidor puede gestionar las peticiones (capacidad). Si tu sitio desperdicia presupuesto en páginas de bajo valor, las importantes pueden no llegar a rastrearse nunca.
Lo que mata el presupuesto
- Navegación por facetas: miles de combinaciones de filtros que generan páginas casi duplicadas (
/zapatos?color=rojo&talla=42&marca=nike&orden=precio). - Páginas de resultados de búsqueda interna: cada consulta crea una nueva URL que Google puede intentar rastrear.
- Calendarios o paginación infinita: los crawlers pueden seguir los enlaces "siguiente" indefinidamente.
- IDs de sesión en las URLs: cada sesión crea un duplicado de cada página.
- Soft 404s: páginas que devuelven un código de estado 200 pero muestran contenido de "sin resultados". Google gasta presupuesto rastreándolas y luego tiene que descubrir que están vacías.
Cómo diagnosticarlo
En Search Console, el informe de Estadísticas de rastreo muestra el total de peticiones, el tiempo medio de respuesta y el desglose de códigos de respuesta. Si la mayoría de URLs rastreadas son páginas de filtros de bajo valor, estás sangrando presupuesto. El análisis de logs del servidor proporciona aún más detalle: identifica qué rutas ataca Googlebot con más frecuencia.
4. Contenido pobre o duplicado
Google puede rastrear una página y decidir que no merece ser indexada. El informe de Indexación de páginas lo denomina "Rastreada, actualmente no indexada" o "Descubierta, actualmente no indexada".
Las razones incluyen:
- Contenido pobre (thin content): páginas con muy poco texto único — plantillas con contenido mínimo, artículos incompletos, páginas de categoría auto-generadas sin descripciones.
- Contenido casi duplicado: múltiples páginas con texto sustancialmente similar. Google elige una y descarta el resto.
- Baja calidad o baja demanda: Google puede simplemente decidir que la página no aporta suficiente valor al índice como para justificar su inclusión.
Cómo solucionarlo
Consolida las páginas pobres en menos páginas más ricas. Añade contenido único y sustancial a las páginas de plantilla. Usa etiquetas canonical para apuntar los duplicados a la versión preferida. Si una página realmente no tiene valor, considera eliminarla o bloquearla en robots.txt para liberar crawl budget para las páginas que importan.
5. Errores del servidor (5xx)
Cuando Googlebot encuentra errores 5xx del servidor de forma persistente, reduce la velocidad de rastreo y puede terminar eliminando las páginas afectadas del índice. Un error 500 puntual durante una caída temporal no es problema: Google lo reintentará. Pero los errores recurrentes del servidor indican un hosting poco fiable, y Google responde rastreando con menos frecuencia y profundidad.
Cómo diagnosticarlo
- Search Console > Estadísticas de rastreo: busca picos en respuestas 5xx.
- Search Console > Informe de Páginas: comprueba las entradas "Error del servidor (5xx)".
- Monitorización del servidor: usa herramientas de monitorización de uptime para detectar caídas y respuestas lentas antes de que lo haga Googlebot.
6. Cadenas y bucles de redirecciones
Una cadena de redirecciones ocurre cuando la URL A redirige a la B, que redirige a la C, que redirige a la D. Google sigue hasta 10 redirecciones en una cadena, pero cada salto consume crawl budget y diluye la autoridad de enlace. Las cadenas largas o los bucles hacen que Google abandone por completo.
Escenarios habituales
- Migración HTTP a HTTPS superpuesta a una redirección www a sin-www:
http://www.ejemplo.com→https://www.ejemplo.com→https://ejemplo.com. Son dos saltos por cada enlace antiguo. - Cambios de slug en el CMS que crean una cadena: el slug antiguo redirige a un slug intermedio que redirige al actual.
- Bucles de redirección: A redirige a B y B redirige de vuelta a A. Googlebot desiste inmediatamente.
Cómo solucionarlo
Aplana las cadenas para que cada redirección apunte directamente al destino final. Audita las redirecciones después de cada migración. Usa herramientas como Spider.es, Screaming Frog o curl -L en línea de comandos para trazar la ruta completa de redirección.
7. Páginas huérfanas
Una página huérfana es una URL que existe en tu servidor pero no tiene enlaces internos que apunten a ella. Si ninguna página de tu sitio la enlaza y no está en un sitemap, Google no tiene forma de descubrirla, aunque el contenido sea excelente.
Cómo diagnosticarlo
Compara las URLs de tu sitemap y logs del servidor con las URLs encontradas en un rastreo completo del sitio. Cualquier URL que aparezca en el sitemap pero no en el grafo de rastreo está efectivamente huérfana. Revisa también el informe "Descubierta, actualmente no indexada" de Search Console: si Google encontró una URL (quizá a través de un enlace externo o un sitemap antiguo) pero nunca vuelve a ella, la culpa puede ser de un enlazado interno débil.
Cómo solucionarlo
Añade enlaces internos contextuales desde páginas relevantes y bien rastreadas. Asegúrate de que las páginas huérfanas estén incluidas en tu sitemap XML. Audita la estructura de tu sitio regularmente, especialmente después de rediseños, migraciones o eliminaciones masivas de contenido que puedan romper enlaces existentes.
8. Bloqueada por robots.txt
Si robots.txt bloquea a Googlebot en una URL, Google no puede rastrear la página. Puede seguir indexando la URL (si otras páginas enlazan a ella) pero sin contenido, lo que resulta en un listado mínimo e inútil. El informe de Páginas de Search Console las muestra como "Bloqueada por robots.txt".
Este es uno de los problemas más fáciles de identificar y corregir. Ejecuta un informe de Spider.es para ver exactamente qué reglas afectan a Googlebot en cada ruta, y actualiza tu robots.txt en consecuencia.
Checklist de diagnóstico
Cuando una página no se indexa, sigue esta secuencia:
- Inspección de URL en Search Console: ¿conoce Google la página? ¿Qué estado reporta?
- Comprobar noindex: inspecciona las meta etiquetas y las cabeceras de respuesta HTTP.
- Comprobar el canonical: ¿apunta a sí misma o a otra URL?
- Comprobar robots.txt: ¿está bloqueada la URL? Usa Spider.es para un desglose por bot.
- Comprobar el código de estado HTTP: ¿es 200? ¿Una redirección? ¿Un 404 o 5xx?
- Comprobar los enlaces internos: ¿puedes llegar a la página siguiendo enlaces desde la homepage?
- Comprobar el sitemap: ¿está listada la URL?
- Comprobar la calidad del contenido: ¿hay suficiente contenido único y valioso para justificar la indexación?
Reflexiones finales
Que Google ignore tus páginas rara vez es aleatorio. Casi siempre hay una señal técnica diciéndole al crawler que omita, posponga o despriorice la página. El reto es encontrar esa señal entre las decenas de causas posibles. Un diagnóstico sistemático —empezando por Search Console y complementado con herramientas como Spider.es que muestran la perspectiva del crawler— convierte un problema opaco en uno resoluble. Corrige la causa raíz, reenvía la URL y monitoriza hasta que Google la recoja.