Pourquoi Google ignore vos pages : problèmes d'indexation courants résolus

Vous publiez une page. Vous attendez. Les jours se transforment en semaines, et la page n'apparaît jamais sur Google. Aucune impression dans la Search Console, aucun trafic, aucun signe que Google sache même que la page existe. C'est l'une des expériences les plus frustrantes en SEO — et l'une des plus courantes.

La bonne nouvelle : Google vous indique presque toujours pourquoi il a ignoré une page. La mauvaise nouvelle : les signaux sont dispersés à travers plusieurs outils et rapports, et les causes profondes vont de mauvaises configurations évidentes à des défauts architecturaux subtils. Ce guide passe en revue chaque raison majeure pour laquelle Google pourrait refuser d'indexer votre contenu, avec des étapes de diagnostic pratiques pour chacune.

1. La directive noindex

La cause la plus directe. Si une page porte une directive noindex, Google l'explorera mais l'exclura explicitement de l'index.

noindex peut apparaître :

  • Balise meta : <meta name="robots" content="noindex"> dans le <head> HTML.
  • En-tête X-Robots-Tag : X-Robots-Tag: noindex envoyé comme en-tête de réponse HTTP. Celui-ci est particulièrement insidieux car il est invisible dans le code source de la page — vous devez inspecter directement les en-têtes de réponse.

Comment diagnostiquer

  • Dans Google Search Console, allez dans le rapport Pages. Recherchez le statut « Excluded by 'noindex' tag ».
  • Utilisez l'outil Inspection d'URL pour vérifier une URL spécifique. Il indiquera si Google a détecté un noindex.
  • Lancez un rapport Spider.es sur votre domaine pour voir quels bots rencontrent des directives noindex et d'où elles proviennent.
  • Vérifiez vos en-têtes de réponse HTTP avec curl -I ou les DevTools du navigateur. Un X-Robots-Tag défini au niveau du serveur ou du CDN peut outrepasser ce que votre CMS prévoit.

Coupables fréquents : des environnements de staging dont les paramètres noindex ont été transférés en production, des plugins CMS qui ajoutent noindex aux pages de pagination ou d'archives, et des couches CDN ou reverse proxy injectant des en-têtes X-Robots-Tag.

2. Canonical pointant ailleurs

La balise rel="canonical" indique à Google quelle URL est la version « préférée » d'une page. Si la page A déclare son canonical comme étant la page B, Google peut indexer la page B et ignorer la page A — même si la page A possède un contenu unique.

Erreurs courantes de canonical

  • Canonical auto-référençant défectueux : une balise canonical qui inclut des paramètres de requête, un mauvais protocole (http vs https) ou des incohérences de slash final.
  • Canonicals générés par le CMS : certains systèmes font pointer les pages paginées, les vues filtrées ou les versions AMP vers des cibles canonical incorrectes.
  • Canonicals inter-domaines : si vous syndiquez du contenu et que le canonical du partenaire de syndication pointe vers sa propre URL, Google peut choisir sa version plutôt que la vôtre.
  • Signaux contradictoires : le canonical dans le HTML dit une chose, l'en-tête HTTP en dit une autre, et le sitemap liste une troisième URL. Google doit deviner — et il peut se tromper.

Comment diagnostiquer

Utilisez l'outil Inspection d'URL dans Search Console. Sous « Indexation de la page », il affiche le canonical déclaré par l'utilisateur et le canonical sélectionné par Google. S'ils diffèrent, vous avez un problème.

3. Gaspillage du crawl budget

Google alloue un crawl budget fini à chaque site — une combinaison de la fréquence à laquelle il souhaite explorer (demande) et de la rapidité avec laquelle votre serveur peut traiter les requêtes (capacité). Si votre site gaspille du budget sur des pages de faible valeur, les pages importantes pourraient ne jamais être explorées.

Ce qui tue le budget

  • Navigation à facettes : des milliers de combinaisons de filtres générant des pages quasi-identiques (/shoes?color=red&size=10&brand=nike&sort=price).
  • Pages de résultats de recherche interne : chaque requête crée une nouvelle URL que Google peut tenter d'explorer.
  • Calendrier ou pagination infinis : les crawlers peuvent suivre les liens « suivant » indéfiniment.
  • IDs de session dans les URL : chaque session crée un doublon de chaque page.
  • Soft 404 : des pages qui renvoient un code de statut 200 mais affichent un contenu « aucun résultat trouvé ». Google gaspille du budget à les explorer puis doit comprendre qu'elles sont vides.

Comment diagnostiquer

Dans Search Console, le rapport Statistiques d'exploration affiche le total des requêtes, le temps de réponse moyen et la répartition des codes de réponse. Si la majorité des URL explorées sont des pages de filtres à faible valeur, vous gaspillez votre budget. L'analyse des logs serveur fournit des informations encore plus approfondies — identifiez quels chemins Googlebot sollicite le plus.

4. Contenu pauvre ou dupliqué

Google peut explorer une page puis décider qu'elle ne mérite pas d'être indexée. Le rapport d'indexation des pages appelle cela « Explored — currently not indexed » ou « Discovered — currently not indexed ».

Raisons possibles :

  • Contenu pauvre : des pages avec très peu de texte unique — des modèles standardisés avec un contenu minimal, des articles ébauchés, des pages de catégories auto-générées sans descriptions.
  • Contenu quasi-dupliqué : plusieurs pages avec un texte substantiellement similaire. Google en choisit une et élimine les autres.
  • Faible qualité ou faible demande : Google peut simplement décider que la page n'ajoute pas assez de valeur à l'index pour justifier son inclusion.

Comment corriger

Consolidez les pages pauvres en des pages moins nombreuses mais plus riches. Ajoutez du contenu unique et substantiel aux pages de modèles. Utilisez les balises canonical pour pointer les doublons vers la version préférée. Si une page n'a vraiment aucune valeur, envisagez de la supprimer ou de la bloquer dans le robots.txt pour libérer du crawl budget pour les pages qui comptent.

5. Erreurs serveur (5xx)

Lorsque Googlebot rencontre des erreurs serveur 5xx persistantes, il réduit sa fréquence d'exploration et peut finalement retirer les pages affectées de l'index. Une seule erreur 500 lors d'une panne ponctuelle ne pose pas de problème — Google réessaiera. Mais des erreurs serveur récurrentes signalent un hébergement peu fiable, et Google répond en explorant moins fréquemment et moins en profondeur.

Comment diagnostiquer

  • Search Console > Statistiques d'exploration : recherchez les pics de réponses 5xx.
  • Search Console > Rapport Pages : vérifiez les entrées « Server error (5xx) ».
  • Monitoring serveur : utilisez des outils de surveillance de disponibilité pour détecter les pannes et les réponses lentes avant Googlebot.

6. Chaînes et boucles de redirections

Une chaîne de redirection se produit lorsque l'URL A redirige vers B, qui redirige vers C, qui redirige vers D. Google suit jusqu'à 10 redirections dans une chaîne, mais chaque saut gaspille du crawl budget et dilue le link equity. Les chaînes longues ou les boucles amènent Google à abandonner complètement.

Scénarios courants

  • Migration HTTP vers HTTPS superposée à une redirection www vers non-www : http://www.example.comhttps://www.example.comhttps://example.com. Cela fait deux sauts pour chaque ancien lien.
  • Changements de slug dans le CMS créant une chaîne : l'ancien slug redirige vers un slug intermédiaire qui redirige vers le slug actuel.
  • Boucles de redirection : A redirige vers B et B redirige vers A. Googlebot abandonne immédiatement.

Comment corriger

Aplatissez les chaînes pour que chaque redirection pointe directement vers la destination finale. Auditez les redirections après chaque migration. Utilisez des outils comme Spider.es, Screaming Frog ou la commande curl -L pour tracer le chemin complet des redirections.

7. Pages orphelines

Une page orpheline est une URL qui existe sur votre serveur mais vers laquelle aucun lien interne ne pointe. Si aucune page de votre site ne renvoie vers elle et qu'elle ne figure pas dans un sitemap, Google n'a aucun moyen de la découvrir — même si le contenu est excellent.

Comment diagnostiquer

Comparez les URL de votre sitemap et de vos logs serveur avec les URL trouvées lors d'un crawl complet du site. Toute URL qui apparaît dans le sitemap mais pas dans le graphe de crawl est effectivement orpheline. Vérifiez aussi le rapport « Discovered — currently not indexed » de Search Console : si Google a trouvé une URL (peut-être via un lien externe ou un ancien sitemap) mais n'y revient jamais, un maillage interne faible peut en être la cause.

Comment corriger

Ajoutez des liens internes contextuels depuis des pages pertinentes et bien explorées. Assurez-vous que les pages orphelines figurent dans votre sitemap XML. Auditez régulièrement la structure de votre site — en particulier après des refontes, des migrations ou des suppressions massives de contenu qui pourraient casser des liens existants.

8. Bloqué par le robots.txt

Si le robots.txt interdit à Googlebot l'accès à une URL, Google ne peut pas explorer la page. Il peut quand même indexer l'URL (si d'autres pages y renvoient) mais sans aucun contenu — ce qui produit un résultat minimal et inutile. Le rapport Pages de Search Console les affiche comme « Blocked by robots.txt ».

C'est l'un des problèmes les plus faciles à identifier et corriger. Lancez un rapport Spider.es pour voir exactement quelles règles affectent Googlebot sur chaque chemin, puis mettez à jour votre robots.txt en conséquence.

Checklist de diagnostic

Lorsqu'une page n'est pas indexée, suivez cette séquence :

  1. Inspection d'URL dans Search Console : la page est-elle connue de Google ? Quel statut rapporte-t-il ?
  2. Vérifiez le noindex : inspectez les balises meta et les en-têtes de réponse HTTP.
  3. Vérifiez le canonical : pointe-t-il vers lui-même ou ailleurs ?
  4. Vérifiez le robots.txt : l'URL est-elle bloquée ? Utilisez Spider.es pour une ventilation par bot.
  5. Vérifiez le code de statut HTTP : est-ce un 200 ? Une redirection ? Un 404 ou 5xx ?
  6. Vérifiez les liens internes : pouvez-vous atteindre la page en suivant des liens depuis la page d'accueil ?
  7. Vérifiez le sitemap : l'URL est-elle listée ?
  8. Vérifiez la qualité du contenu : y a-t-il suffisamment de contenu unique et précieux pour justifier l'indexation ?

Conclusion

Le fait que Google ignore vos pages est rarement aléatoire. Il y a presque toujours un signal technique indiquant au crawler d'ignorer, de différer ou de déprioriser. Le défi est de trouver ce signal parmi les dizaines de causes possibles. Un diagnostic systématique — en commençant par Search Console et complété par des outils comme Spider.es qui montrent la perspective du crawler — transforme un problème opaque en un problème résoluble. Corrigez la cause profonde, resoumettez l'URL et surveillez jusqu'à ce que Google la prenne en compte.

Retour au blog