Warum Google deine Seiten ignoriert: häufige Indexierungsprobleme gelöst

Veröffentlicht am 1. April 2026

Du veröffentlichst eine Seite. Du wartest. Aus Tagen werden Wochen, und die Seite taucht nie bei Google auf. Keine Impressionen in der Search Console, kein Traffic, kein Zeichen, dass Google überhaupt weiß, dass die Seite existiert. Das ist eine der frustrierendsten Erfahrungen in der SEO — und eine der häufigsten.

Die gute Nachricht: Google sagt dir fast immer, warum es eine Seite ignoriert hat. Die schlechte Nachricht: Die Signale sind über mehrere Tools und Berichte verstreut, und die Ursachen reichen von offensichtlichen Fehlkonfigurationen bis zu subtilen architektonischen Mängeln. Dieser Leitfaden geht jede wichtige Ursache durch, warum Google deine Inhalte möglicherweise nicht indexiert, mit praktischen Diagnoseschritten für jede einzelne.

1. Die noindex-Direktive

Die naheliegendste Ursache. Wenn eine Seite eine noindex-Direktive trägt, wird Google sie crawlen, aber explizit vom Index ausschließen.

Wo noindex erscheinen kann:

Meta-Tag: <meta name="robots" content="noindex"> im HTML-<head>.
X-Robots-Tag-Header: X-Robots-Tag: noindex als HTTP-Antwort-Header gesendet. Dieser ist besonders tückisch, weil er im Seitenquelltext unsichtbar ist — du musst die Antwort-Header direkt inspizieren.

Wie diagnostizieren

Gehe in der Google Search Console zum Seitenreport. Suche nach dem Status "Durch 'noindex'-Tag ausgeschlossen".
Nutze das URL-Prüftool, um eine bestimmte URL zu überprüfen. Es zeigt, ob Google ein noindex erkannt hat.
Führe einen Spider.es-Report für deine Domain aus, um zu sehen, welche Bots auf noindex-Direktiven stoßen und woher sie stammen.
Prüfe deine HTTP-Antwort-Header mit curl -I oder den Browser-DevTools. Ein X-Robots-Tag, der auf Server- oder CDN-Ebene gesetzt wird, kann überschreiben, was dein CMS beabsichtigt.

Häufige Verursacher: Staging-Umgebungen, deren noindex-Einstellungen in die Produktion übernommen wurden, CMS-Plugins, die noindex zu Paginierungs- oder Archivseiten hinzufügen, und CDN- oder Reverse-Proxy-Schichten, die X-Robots-Tag-Header injizieren.

2. Canonical zeigt woanders hin

Das rel="canonical"-Tag teilt Google mit, welche URL die "bevorzugte" Version einer Seite ist. Wenn Seite A ihren Canonical als Seite B deklariert, könnte Google Seite B indexieren und Seite A ignorieren — selbst wenn Seite A einzigartigen Content hat.

Häufige Canonical-Fehler

Fehlerhafter selbstreferenzierender Canonical: Ein Canonical-Tag, das Query-Parameter, das falsche Protokoll (http vs. https) oder Inkonsistenzen beim abschließenden Schrägstrich enthält.
CMS-generierte Canonicals: Manche Systeme verweisen paginierte Seiten, gefilterte Ansichten oder AMP-Versionen auf falsche Canonical-Ziele.
Cross-Domain-Canonicals: Wenn du Content syndizierst und der Canonical des Syndikationspartners auf seine eigene URL zeigt, könnte Google seine Version deiner vorziehen.
Widersprüchliche Signale: Der Canonical im HTML sagt eine Sache, der HTTP-Header sagt eine andere, und die Sitemap listet eine dritte URL. Google muss raten — und es könnte falsch raten.

Wie diagnostizieren

Nutze das URL-Prüftool in der Search Console. Unter "Seitenindexierung" zeigt es den vom Nutzer deklarierten Canonical und den von Google ausgewählten Canonical. Wenn sie sich unterscheiden, hast du ein Problem.

3. Crawl-Budget-Verschwendung

Google weist jeder Website ein endliches Crawl-Budget zu — eine Kombination aus wie oft es crawlen möchte (Nachfrage) und wie schnell dein Server Anfragen bewältigen kann (Kapazität). Wenn deine Website Budget für Seiten mit geringem Wert verschwendet, werden die wichtigen möglicherweise nie gecrawlt.

Budget-Killer

Facettierte Navigation: Tausende von Filterkombinationen, die nahezu doppelte Seiten erzeugen (/shoes?color=red&size=10&brand=nike&sort=price).
Interne Suchergebnisseiten: Jede Suchanfrage erzeugt eine neue URL, die Google zu crawlen versuchen könnte.
Endlose Kalender- oder Paginierung: Crawler können "Weiter"-Links unendlich folgen.
Session-IDs in URLs: Jede Session erstellt ein Duplikat jeder Seite.
Soft 404s: Seiten, die einen 200-Statuscode zurückgeben, aber "Keine Ergebnisse gefunden" anzeigen. Google verschwendet Budget beim Crawlen und muss dann herausfinden, dass sie leer sind.

Wie diagnostizieren

In der Search Console zeigt der Crawling-Statistiken-Bericht die Gesamtanfragen, die durchschnittliche Antwortzeit und die Aufschlüsselung der Antwortcodes. Wenn die Mehrheit der gecrawlten URLs wertarme Filterseiten sind, verlierst du Budget. Die Server-Log-Analyse liefert noch tiefere Einblicke — identifiziere, welche Pfade Googlebot am meisten ansteuert.

4. Thin oder Duplicate Content

Google könnte eine Seite crawlen und dann entscheiden, dass sie die Indexierung nicht wert ist. Der Seitenindexierungsbericht nennt dies "Gecrawlt – aktuell nicht indexiert" oder "Entdeckt – aktuell nicht indexiert".

Gründe umfassen:

Thin Content: Seiten mit sehr wenig einzigartigem Text — Boilerplate-Templates mit minimalen Inhalten, Stub-Artikel, automatisch generierte Kategorieseiten ohne Beschreibungen.
Near-Duplicate-Content: Mehrere Seiten mit im Wesentlichen ähnlichem Text. Google wählt eine aus und verwirft den Rest.
Geringe Qualität oder geringe Nachfrage: Google entscheidet möglicherweise einfach, dass die Seite dem Index nicht genug Wert hinzufügt, um ihre Aufnahme zu rechtfertigen.

Wie beheben

Konsolidiere dünne Seiten zu weniger, aber reichhaltigeren Seiten. Füge Template-Seiten einzigartigen, substanziellen Content hinzu. Verwende Canonical-Tags, um Duplikate auf die bevorzugte Version zu verweisen. Wenn eine Seite wirklich keinen Wert hat, erwäge, sie zu entfernen oder sie in der robots.txt zu blockieren, um Crawl-Budget für die Seiten freizumachen, die zählen.

5. Serverfehler (5xx)

Wenn Googlebot auf anhaltende 5xx-Serverfehler stößt, reduziert er die Crawling-Rate und kann betroffene Seiten schließlich aus dem Index entfernen. Ein einzelner 500-Fehler während eines einmaligen Ausfalls ist in Ordnung — Google versucht es erneut. Aber wiederkehrende Serverfehler signalisieren einen unzuverlässigen Host, und Google reagiert mit weniger häufigem und weniger tiefem Crawling.

Wie diagnostizieren

Search Console > Crawling-Statistiken: Suche nach Spitzen bei 5xx-Antworten.
Search Console > Seitenreport: Prüfe auf "Serverfehler (5xx)"-Einträge.
Server-Monitoring: Nutze Uptime-Monitoring-Tools, um Ausfälle und langsame Antworten zu erkennen, bevor Googlebot es tut.

6. Redirect-Ketten und -Schleifen

Eine Redirect-Kette entsteht, wenn URL A zu B weiterleitet, B zu C und C zu D. Google folgt bis zu 10 Redirects in einer Kette, aber jeder Hop verschwendet Crawl-Budget und verwässert Link-Equity. Lange Ketten oder Schleifen veranlassen Google, komplett aufzugeben.

Häufige Szenarien

HTTP-zu-HTTPS-Migration kombiniert mit einem www-zu-non-www-Redirect: http://www.example.com → https://www.example.com → https://example.com. Das sind zwei Hops für jeden alten Link.
CMS-Slug-Änderungen, die eine Kette erzeugen: Der alte Slug leitet zu einem Zwischen-Slug weiter, der zum aktuellen weiterleitet.
Redirect-Schleifen: A leitet zu B weiter und B leitet zurück zu A. Googlebot gibt sofort auf.

Wie beheben

Glätte Ketten, sodass jeder Redirect direkt auf das endgültige Ziel zeigt. Prüfe Redirects nach jeder Migration. Nutze Tools wie Spider.es, Screaming Frog oder curl -L auf der Kommandozeile, um den vollständigen Redirect-Pfad nachzuverfolgen.

7. Verwaiste Seiten

Eine verwaiste Seite ist eine URL, die auf deinem Server existiert, aber keine internen Links hat, die auf sie verweisen. Wenn keine Seite deiner Website darauf verlinkt und sie nicht in einer Sitemap ist, hat Google keine Möglichkeit, sie zu entdecken — auch wenn der Content ausgezeichnet ist.

Wie diagnostizieren

Vergleiche die URLs in deiner Sitemap und deinen Server-Logs mit den URLs eines vollständigen Site-Crawls. Jede URL, die in der Sitemap erscheint, aber nicht im Crawl-Graphen, ist effektiv verwaist. Prüfe auch den Bericht "Entdeckt – aktuell nicht indexiert" der Search Console: Wenn Google eine URL gefunden hat (vielleicht über einen externen Link oder eine alte Sitemap), aber nie zurückkehrt, könnte schwache interne Verlinkung die Ursache sein.

Wie beheben

Füge kontextuelle interne Links von relevanten, gut gecrawlten Seiten hinzu. Stelle sicher, dass verwaiste Seiten in deiner XML-Sitemap enthalten sind. Prüfe deine Seitenstruktur regelmäßig — besonders nach Redesigns, Migrationen oder großen Content-Löschungen, die bestehende Links brechen können.

8. Von robots.txt blockiert

Wenn die robots.txt Googlebot eine URL blockiert, kann Google die Seite nicht crawlen. Es kann die URL trotzdem indexieren (wenn andere Seiten darauf verlinken), aber ohne Inhalt — was zu einem minimalen, wenig hilfreichen Eintrag führt. Der Seitenreport der Search Console zeigt diese als "Von robots.txt blockiert".

Dies ist eines der am einfachsten zu identifizierenden und behebenden Probleme. Führe einen Spider.es-Report aus, um genau zu sehen, welche Regeln Googlebot auf jedem Pfad betreffen, und aktualisiere dann deine robots.txt entsprechend.

Eine Diagnose-Checkliste

Wenn eine Seite nicht indexiert ist, gehe diese Reihenfolge durch:

URL-Prüfung in der Search Console: Ist die Seite Google überhaupt bekannt? Welchen Status meldet sie?
Auf noindex prüfen: Inspiziere Meta-Tags und HTTP-Antwort-Header.
Canonical prüfen: Zeigt er auf sich selbst oder woanders hin?
robots.txt prüfen: Ist die URL blockiert? Nutze Spider.es für eine Aufschlüsselung pro Bot.
HTTP-Statuscode prüfen: Ist es 200? Ein Redirect? Ein 404 oder 5xx?
Interne Links prüfen: Kannst du die Seite erreichen, indem du Links von der Startseite folgst?
Sitemap prüfen: Ist die URL aufgelistet?
Content-Qualität prüfen: Gibt es genug einzigartigen, wertvollen Content, um die Indexierung zu rechtfertigen?

Fazit

Dass Google deine Seiten ignoriert, ist selten zufällig. Es gibt fast immer ein technisches Signal, das dem Crawler sagt, die Seite zu überspringen, aufzuschieben oder herabzustufen. Die Herausforderung besteht darin, dieses Signal unter den Dutzenden möglicher Ursachen zu finden. Systematische Diagnose — beginnend mit der Search Console und ergänzt durch Tools wie Spider.es, die die Perspektive des Crawlers zeigen — verwandelt ein undurchsichtiges Problem in ein lösbares. Behebe die Ursache, reiche die URL erneut ein und überwache, bis Google sie aufnimmt.

Zurück zum Blog

spider.es

Domain-Überblick

robots.txt

Weitere Dateien

Meta Robots

Header

Warum Google deine Seiten ignoriert: häufige Indexierungsprobleme gelöst

1. Die noindex-Direktive

Wie diagnostizieren

2. Canonical zeigt woanders hin

Häufige Canonical-Fehler

Wie diagnostizieren

3. Crawl-Budget-Verschwendung

Budget-Killer

Wie diagnostizieren

4. Thin oder Duplicate Content

Wie beheben

5. Serverfehler (5xx)

Wie diagnostizieren

6. Redirect-Ketten und -Schleifen

Häufige Szenarien

Wie beheben

7. Verwaiste Seiten

Wie diagnostizieren

Wie beheben

8. Von robots.txt blockiert

Eine Diagnose-Checkliste

Fazit