Warum Google deine Seiten ignoriert: häufige Indexierungsprobleme gelöst
Du veröffentlichst eine Seite. Du wartest. Aus Tagen werden Wochen, und die Seite taucht nie bei Google auf. Keine Impressionen in der Search Console, kein Traffic, kein Zeichen, dass Google überhaupt weiß, dass die Seite existiert. Das ist eine der frustrierendsten Erfahrungen in der SEO — und eine der häufigsten.
Die gute Nachricht: Google sagt dir fast immer, warum es eine Seite ignoriert hat. Die schlechte Nachricht: Die Signale sind über mehrere Tools und Berichte verstreut, und die Ursachen reichen von offensichtlichen Fehlkonfigurationen bis zu subtilen architektonischen Mängeln. Dieser Leitfaden geht jede wichtige Ursache durch, warum Google deine Inhalte möglicherweise nicht indexiert, mit praktischen Diagnoseschritten für jede einzelne.
1. Die noindex-Direktive
Die naheliegendste Ursache. Wenn eine Seite eine noindex-Direktive trägt, wird Google sie crawlen, aber explizit vom Index ausschließen.
Wo noindex erscheinen kann:
- Meta-Tag:
<meta name="robots" content="noindex">im HTML-<head>. - X-Robots-Tag-Header:
X-Robots-Tag: noindexals HTTP-Antwort-Header gesendet. Dieser ist besonders tückisch, weil er im Seitenquelltext unsichtbar ist — du musst die Antwort-Header direkt inspizieren.
Wie diagnostizieren
- Gehe in der Google Search Console zum Seitenreport. Suche nach dem Status "Durch 'noindex'-Tag ausgeschlossen".
- Nutze das URL-Prüftool, um eine bestimmte URL zu überprüfen. Es zeigt, ob Google ein
noindexerkannt hat. - Führe einen Spider.es-Report für deine Domain aus, um zu sehen, welche Bots auf
noindex-Direktiven stoßen und woher sie stammen. - Prüfe deine HTTP-Antwort-Header mit
curl -Ioder den Browser-DevTools. Ein X-Robots-Tag, der auf Server- oder CDN-Ebene gesetzt wird, kann überschreiben, was dein CMS beabsichtigt.
Häufige Verursacher: Staging-Umgebungen, deren noindex-Einstellungen in die Produktion übernommen wurden, CMS-Plugins, die noindex zu Paginierungs- oder Archivseiten hinzufügen, und CDN- oder Reverse-Proxy-Schichten, die X-Robots-Tag-Header injizieren.
2. Canonical zeigt woanders hin
Das rel="canonical"-Tag teilt Google mit, welche URL die "bevorzugte" Version einer Seite ist. Wenn Seite A ihren Canonical als Seite B deklariert, könnte Google Seite B indexieren und Seite A ignorieren — selbst wenn Seite A einzigartigen Content hat.
Häufige Canonical-Fehler
- Fehlerhafter selbstreferenzierender Canonical: Ein Canonical-Tag, das Query-Parameter, das falsche Protokoll (http vs. https) oder Inkonsistenzen beim abschließenden Schrägstrich enthält.
- CMS-generierte Canonicals: Manche Systeme verweisen paginierte Seiten, gefilterte Ansichten oder AMP-Versionen auf falsche Canonical-Ziele.
- Cross-Domain-Canonicals: Wenn du Content syndizierst und der Canonical des Syndikationspartners auf seine eigene URL zeigt, könnte Google seine Version deiner vorziehen.
- Widersprüchliche Signale: Der Canonical im HTML sagt eine Sache, der HTTP-Header sagt eine andere, und die Sitemap listet eine dritte URL. Google muss raten — und es könnte falsch raten.
Wie diagnostizieren
Nutze das URL-Prüftool in der Search Console. Unter "Seitenindexierung" zeigt es den vom Nutzer deklarierten Canonical und den von Google ausgewählten Canonical. Wenn sie sich unterscheiden, hast du ein Problem.
3. Crawl-Budget-Verschwendung
Google weist jeder Website ein endliches Crawl-Budget zu — eine Kombination aus wie oft es crawlen möchte (Nachfrage) und wie schnell dein Server Anfragen bewältigen kann (Kapazität). Wenn deine Website Budget für Seiten mit geringem Wert verschwendet, werden die wichtigen möglicherweise nie gecrawlt.
Budget-Killer
- Facettierte Navigation: Tausende von Filterkombinationen, die nahezu doppelte Seiten erzeugen (
/shoes?color=red&size=10&brand=nike&sort=price). - Interne Suchergebnisseiten: Jede Suchanfrage erzeugt eine neue URL, die Google zu crawlen versuchen könnte.
- Endlose Kalender- oder Paginierung: Crawler können "Weiter"-Links unendlich folgen.
- Session-IDs in URLs: Jede Session erstellt ein Duplikat jeder Seite.
- Soft 404s: Seiten, die einen 200-Statuscode zurückgeben, aber "Keine Ergebnisse gefunden" anzeigen. Google verschwendet Budget beim Crawlen und muss dann herausfinden, dass sie leer sind.
Wie diagnostizieren
In der Search Console zeigt der Crawling-Statistiken-Bericht die Gesamtanfragen, die durchschnittliche Antwortzeit und die Aufschlüsselung der Antwortcodes. Wenn die Mehrheit der gecrawlten URLs wertarme Filterseiten sind, verlierst du Budget. Die Server-Log-Analyse liefert noch tiefere Einblicke — identifiziere, welche Pfade Googlebot am meisten ansteuert.
4. Thin oder Duplicate Content
Google könnte eine Seite crawlen und dann entscheiden, dass sie die Indexierung nicht wert ist. Der Seitenindexierungsbericht nennt dies "Gecrawlt – aktuell nicht indexiert" oder "Entdeckt – aktuell nicht indexiert".
Gründe umfassen:
- Thin Content: Seiten mit sehr wenig einzigartigem Text — Boilerplate-Templates mit minimalen Inhalten, Stub-Artikel, automatisch generierte Kategorieseiten ohne Beschreibungen.
- Near-Duplicate-Content: Mehrere Seiten mit im Wesentlichen ähnlichem Text. Google wählt eine aus und verwirft den Rest.
- Geringe Qualität oder geringe Nachfrage: Google entscheidet möglicherweise einfach, dass die Seite dem Index nicht genug Wert hinzufügt, um ihre Aufnahme zu rechtfertigen.
Wie beheben
Konsolidiere dünne Seiten zu weniger, aber reichhaltigeren Seiten. Füge Template-Seiten einzigartigen, substanziellen Content hinzu. Verwende Canonical-Tags, um Duplikate auf die bevorzugte Version zu verweisen. Wenn eine Seite wirklich keinen Wert hat, erwäge, sie zu entfernen oder sie in der robots.txt zu blockieren, um Crawl-Budget für die Seiten freizumachen, die zählen.
5. Serverfehler (5xx)
Wenn Googlebot auf anhaltende 5xx-Serverfehler stößt, reduziert er die Crawling-Rate und kann betroffene Seiten schließlich aus dem Index entfernen. Ein einzelner 500-Fehler während eines einmaligen Ausfalls ist in Ordnung — Google versucht es erneut. Aber wiederkehrende Serverfehler signalisieren einen unzuverlässigen Host, und Google reagiert mit weniger häufigem und weniger tiefem Crawling.
Wie diagnostizieren
- Search Console > Crawling-Statistiken: Suche nach Spitzen bei 5xx-Antworten.
- Search Console > Seitenreport: Prüfe auf "Serverfehler (5xx)"-Einträge.
- Server-Monitoring: Nutze Uptime-Monitoring-Tools, um Ausfälle und langsame Antworten zu erkennen, bevor Googlebot es tut.
6. Redirect-Ketten und -Schleifen
Eine Redirect-Kette entsteht, wenn URL A zu B weiterleitet, B zu C und C zu D. Google folgt bis zu 10 Redirects in einer Kette, aber jeder Hop verschwendet Crawl-Budget und verwässert Link-Equity. Lange Ketten oder Schleifen veranlassen Google, komplett aufzugeben.
Häufige Szenarien
- HTTP-zu-HTTPS-Migration kombiniert mit einem www-zu-non-www-Redirect:
http://www.example.com→https://www.example.com→https://example.com. Das sind zwei Hops für jeden alten Link. - CMS-Slug-Änderungen, die eine Kette erzeugen: Der alte Slug leitet zu einem Zwischen-Slug weiter, der zum aktuellen weiterleitet.
- Redirect-Schleifen: A leitet zu B weiter und B leitet zurück zu A. Googlebot gibt sofort auf.
Wie beheben
Glätte Ketten, sodass jeder Redirect direkt auf das endgültige Ziel zeigt. Prüfe Redirects nach jeder Migration. Nutze Tools wie Spider.es, Screaming Frog oder curl -L auf der Kommandozeile, um den vollständigen Redirect-Pfad nachzuverfolgen.
7. Verwaiste Seiten
Eine verwaiste Seite ist eine URL, die auf deinem Server existiert, aber keine internen Links hat, die auf sie verweisen. Wenn keine Seite deiner Website darauf verlinkt und sie nicht in einer Sitemap ist, hat Google keine Möglichkeit, sie zu entdecken — auch wenn der Content ausgezeichnet ist.
Wie diagnostizieren
Vergleiche die URLs in deiner Sitemap und deinen Server-Logs mit den URLs eines vollständigen Site-Crawls. Jede URL, die in der Sitemap erscheint, aber nicht im Crawl-Graphen, ist effektiv verwaist. Prüfe auch den Bericht "Entdeckt – aktuell nicht indexiert" der Search Console: Wenn Google eine URL gefunden hat (vielleicht über einen externen Link oder eine alte Sitemap), aber nie zurückkehrt, könnte schwache interne Verlinkung die Ursache sein.
Wie beheben
Füge kontextuelle interne Links von relevanten, gut gecrawlten Seiten hinzu. Stelle sicher, dass verwaiste Seiten in deiner XML-Sitemap enthalten sind. Prüfe deine Seitenstruktur regelmäßig — besonders nach Redesigns, Migrationen oder großen Content-Löschungen, die bestehende Links brechen können.
8. Von robots.txt blockiert
Wenn die robots.txt Googlebot eine URL blockiert, kann Google die Seite nicht crawlen. Es kann die URL trotzdem indexieren (wenn andere Seiten darauf verlinken), aber ohne Inhalt — was zu einem minimalen, wenig hilfreichen Eintrag führt. Der Seitenreport der Search Console zeigt diese als "Von robots.txt blockiert".
Dies ist eines der am einfachsten zu identifizierenden und behebenden Probleme. Führe einen Spider.es-Report aus, um genau zu sehen, welche Regeln Googlebot auf jedem Pfad betreffen, und aktualisiere dann deine robots.txt entsprechend.
Eine Diagnose-Checkliste
Wenn eine Seite nicht indexiert ist, gehe diese Reihenfolge durch:
- URL-Prüfung in der Search Console: Ist die Seite Google überhaupt bekannt? Welchen Status meldet sie?
- Auf noindex prüfen: Inspiziere Meta-Tags und HTTP-Antwort-Header.
- Canonical prüfen: Zeigt er auf sich selbst oder woanders hin?
- robots.txt prüfen: Ist die URL blockiert? Nutze Spider.es für eine Aufschlüsselung pro Bot.
- HTTP-Statuscode prüfen: Ist es 200? Ein Redirect? Ein 404 oder 5xx?
- Interne Links prüfen: Kannst du die Seite erreichen, indem du Links von der Startseite folgst?
- Sitemap prüfen: Ist die URL aufgelistet?
- Content-Qualität prüfen: Gibt es genug einzigartigen, wertvollen Content, um die Indexierung zu rechtfertigen?
Fazit
Dass Google deine Seiten ignoriert, ist selten zufällig. Es gibt fast immer ein technisches Signal, das dem Crawler sagt, die Seite zu überspringen, aufzuschieben oder herabzustufen. Die Herausforderung besteht darin, dieses Signal unter den Dutzenden möglicher Ursachen zu finden. Systematische Diagnose — beginnend mit der Search Console und ergänzt durch Tools wie Spider.es, die die Perspektive des Crawlers zeigen — verwandelt ein undurchsichtiges Problem in ein lösbares. Behebe die Ursache, reiche die URL erneut ein und überwache, bis Google sie aufnimmt.