Meta Robots und X-Robots-Tag: Direktiven verstehen und richtig einsetzen
Wenn du eine seitenbezogene oder ressourcenbezogene Kontrolle darüber brauchst, wie Suchmaschinen deine Inhalte behandeln, stehen zwei Mechanismen im Zentrum moderner SEO: das Meta-Robots-Tag (ein HTML-Element) und der X-Robots-Tag (ein HTTP-Antwort-Header). Zusammen ermöglichen sie dir, Crawlern mitzuteilen, ob eine Seite indexiert, ihre Links verfolgt, eine gecachte Kopie angezeigt, ein Snippet dargestellt oder sogar eine Bildvorschau eingeblendet werden soll — alles ohne die robots.txt zu berühren. Dieser Artikel ist ein tiefer technischer Einblick in jede Direktive, wie Bot-spezifisches Targeting funktioniert, was passiert, wenn Regeln in Konflikt stehen, und die Fehler, die selbst erfahrene Teams stolpern lassen.
Meta-Robots-Tag vs. X-Robots-Tag: was ist was
Das Meta-Robots-Tag
Platziert innerhalb des <head> eines HTML-Dokuments, ist das Meta-Robots-Tag der vertrauteste Weg, Indexierungsdirektiven auszugeben:
<meta name="robots" content="noindex, nofollow">
Das name-Attribut identifiziert das Ziel (alle Bots bei robots oder ein bestimmter Crawler wie googlebot). Das content-Attribut enthält eine kommagetrennte Liste von Direktiven. Da es im HTML lebt, funktioniert es nur für Dokumente, die Browser und Crawler tatsächlich als Webseiten parsen.
Der X-Robots-Tag-HTTP-Header
Der X-Robots-Tag erreicht dasselbe Ergebnis, aber auf der HTTP-Ebene:
X-Robots-Tag: noindex, nofollow
Da er ein Antwort-Header ist, funktioniert er für jeden Ressourcentyp — PDFs, Bilder, Videodateien, JSON-Feeds, XML-Sitemaps — nicht nur für HTML-Seiten. Das macht ihn unverzichtbar für die Kontrolle von Nicht-HTML-Ressourcen, die Suchmaschinen sonst indexieren könnten.
Du kannst auch einen bestimmten Bot ansprechen, indem du den Direktiven ein Präfix voranstellst:
X-Robots-Tag: googlebot: noindex
Die vollständige Direktiven-Referenz
noindex
Weist den Crawler an, die Seite nicht in den Suchindex aufzunehmen. Ist die Seite bereits indexiert, wird sie nach dem nächsten Crawl entfernt. Dies ist die wichtigste Direktive, um private, Staging- oder wertarme Seiten aus den Suchergebnissen fernzuhalten. Hinweis: Der Crawler muss die Seite trotzdem aufrufen können, um die Direktive zu lesen. Die URL in der robots.txt zu blockieren verhindert, dass der Bot das noindex-Tag jemals sieht, sodass die Seite basierend auf externen Signalen indexiert bleiben könnte.
nofollow
Weist den Crawler an, keinen ausgehenden Links auf der Seite für Ranking- oder Entdeckungszwecke zu folgen. Dies unterscheidet sich vom rel="nofollow"-Attribut auf einzelnen <a>-Elementen, das einen einzelnen Link betrifft. Das nofollow auf Meta-Ebene gilt für jeden Link auf der Seite. Verwende es sparsam — ein pauschales nofollow kann den internen Link-Equity-Fluss unterbrechen und die Entdeckung wichtiger Seiten verhindern.
noarchive
Verhindert, dass Suchmaschinen eine gecachte Kopie der Seite in ihren Ergebnissen anzeigen. Die Seite kann weiterhin indexiert werden und in der Suche erscheinen, aber Nutzer sehen keinen "Im Cache"-Link. Nützlich für Seiten mit zeitkritischen Inhalten oder Preisinformationen, die nicht in veralteter Form angezeigt werden sollten.
nosnippet
Verhindert, dass die Suchmaschine einen Text-Snippet oder eine Videovorschau auf der Ergebnisseite anzeigt. Die Seite kann weiterhin ranken und erscheinen, aber ohne Beschreibung unter dem Titel. Dies ist ein grobes Werkzeug — die meisten Seiten profitieren von Snippets, wende es also nur an, wenn rechtliche oder Datenschutzanforderungen es verlangen.
max-snippet:[Zahl]
Steuert die maximale Zeichenlänge des in den Ergebnissen angezeigten Text-Snippets. Zum Beispiel begrenzt max-snippet:50 das Snippet auf 50 Zeichen. Der Wert 0 entspricht nosnippet. Der Wert -1 bedeutet kein Limit — Google kann so viel Text verwenden, wie es für nützlich hält. So kannst du die Snippet-Länge feinabstimmen, ohne sie komplett zu entfernen.
max-image-preview:[Einstellung]
Definiert die maximale Größe von Bildvorschauen in den Suchergebnissen. Akzeptierte Werte:
- none — keine Bildvorschau.
- standard — ein Vorschaubild in Standardgröße.
- large — eine größere Vorschau, die die Sichtbarkeit in Discover und bildlastigen SERP-Features erhöhen kann.
Das Setzen von max-image-preview:large wird oft empfohlen, wenn deine Seiten für Google Discover und reichhaltige visuelle Ergebnisse berechtigt sein sollen.
max-video-preview:[Zahl]
Legt die maximale Dauer in Sekunden für eine Video-Snippet-Vorschau fest. Ein Wert von 0 deaktiviert Videovorschauen. Ein Wert von -1 erlaubt unbegrenzte Vorschaulänge. Dies ist relevant für Seiten mit eingebetteten Videoinhalten, die kontrollieren möchten, wie viel davon Suchmaschinen zeigen können.
unavailable_after:[Datum]
Weist die Suchmaschine an, die Seite nach einem bestimmten Datum und Uhrzeit nicht mehr anzuzeigen. Das Format folgt RFC 850 oder ISO 8601. Nach dem angegebenen Datum wird die Seite behandelt, als hätte sie eine noindex-Direktive. Perfekt für Veranstaltungsseiten, zeitlich begrenzte Aktionen oder Stellenausschreibungen, die automatisch aus den Ergebnissen verschwinden sollen, wenn sie ablaufen.
<meta name="robots" content="unavailable_after: 2026-06-30T23:59:59+00:00">
notranslate
Weist Google an, keine Übersetzung der Seite in den Suchergebnissen anzubieten. Die Originalseite erscheint weiterhin, aber Nutzer, die in einer anderen Sprache browsen, sehen keinen "Diese Seite übersetzen"-Link.
noimageindex
Fordert an, dass Bilder auf der Seite nicht indexiert werden. Hinweis: Wenn das Bild von einer anderen Seite ohne diese Direktive referenziert wird, kann es trotzdem indexiert werden. Diese Direktive wird nicht universell von allen Suchmaschinen unterstützt.
Bot-spezifisches Targeting
Beide Mechanismen unterstützen das Targeting bestimmter Crawler. Im Meta-Tag ersetze robots durch den Bot-Namen:
<meta name="googlebot" content="noindex">
<meta name="bingbot" content="noarchive">
Du kannst mehrere Meta-Tags einfügen, die jeweils einen anderen Bot ansprechen. Direktiven in einem bot-spezifischen Tag überschreiben das generische robots-Tag für diesen Bot. Zum Beispiel:
<meta name="robots" content="noindex">
<meta name="googlebot" content="index">
In diesem Fall sieht Googlebot index (von seinem spezifischen Tag) und ignoriert das generische noindex. Alle anderen Bots folgen der generischen Regel und indexieren nicht. Das ist leistungsstark für Szenarien, in denen du Inhalte in einer Suchmaschine möchtest, aber nicht in anderen.
Beim X-Robots-Tag-Header nutzt Bot-spezifisches Targeting ein Präfix:
X-Robots-Tag: googlebot: nosnippet
X-Robots-Tag: bingbot: noarchive
Mehrere X-Robots-Tag-Header können in derselben HTTP-Antwort erscheinen, jeder mit eigenem Bot-Präfix und Direktiven.
Prioritätsregeln bei widersprüchlichen Direktiven
Zu verstehen, wie Suchmaschinen widersprüchliche Signale auflösen, ist entscheidend. Die allgemeinen Regeln sind:
- Die restriktivste Direktive gewinnt. Wenn ein Meta-Robots-Tag
indexsagt und der X-Robots-Tag-Headernoindexsagt, wird die Seite nicht indexiert. Suchmaschinen kombinieren alle anwendbaren Direktiven und wenden die restriktivste Interpretation an. - Bot-spezifische Direktiven überschreiben generische für diesen Bot. Ein
<meta name="googlebot">-Tag hat Vorrang vor<meta name="robots">spezifisch für Googlebot. - robots.txt-Blockierung verhindert das Lesen der Direktive. Wenn die
robots.txteine URL sperrt, ruft der Crawler die Seite nie ab, liest nie das Meta-Tag oder den Header und verarbeitet daher nie die Direktive. Eine blockierte Seite mit einemnoindex-Tag kann indexiert bleiben, weil der Bot die Anweisung nie gesehen hat. - Beide Quellen werden kombiniert. Meta Robots und X-Robots-Tag schließen sich nicht gegenseitig aus — sie sind additiv. Ein Crawler liest beide und führt alle anwendbaren Direktiven zu einem einzigen Anweisungssatz zusammen.
Häufige Fehler und wie man sie vermeidet
Crawling blockieren und erwarten, dass noindex funktioniert
Dies ist der häufigste Fehler. Eine Seite ist in der robots.txt gesperrt und hat auch <meta name="robots" content="noindex">. Da der Bot die Seite nicht abrufen kann, sieht er die noindex-Direktive nie. Die Seite kann auf Basis eingehender Links und Ankertexte unbegrenzt im Index bleiben. Lösung: Wenn du eine Seite de-indexieren willst, erlaube das Crawling, damit der Bot das noindex-Tag lesen kann.
noindex sorglos auf paginierte oder gefilterte Seiten anwenden
Paginierte Listing-Seiten als noindex zu markieren kann die Produkte oder Artikel verwaisen lassen, die von diesen tieferen Seiten verlinkt werden. Suchmaschinen hören möglicherweise auf, den internen Links zu folgen, weil die Seiten, die sie tragen, vom Index ausgeschlossen sind. Lösung: Halte paginierte Seiten indexierbar, nutze rel="canonical" auf das Hauptlisting zeigend, oder verwende noindex, follow, um die Link-Entdeckung zu ermöglichen und gleichzeitig Index-Aufblähung zu verhindern.
nofollow auf internen Links für "PageRank Sculpting" verwenden
Vor Jahren nutzten SEOs internes nofollow, um Link-Equity zu lenken. Google hat erklärt, dass die Equity trotzdem verbraucht wird — sie verdampft einfach, anstatt umverteilt zu werden. Lösung: Verwende eine ordnungsgemäße Seitenarchitektur und Crawling-Kontrollen.
X-Robots-Tag bei Nicht-HTML-Ressourcen vergessen
PDFs, Bilder und andere Mediendateien können kein Meta-Tag tragen. Wenn sie nicht indexiert werden sollen, ist der X-Robots-Tag-Header die einzige Option. Viele Teams vergessen, ihren Webserver oder CDN so zu konfigurieren, dass dieser Header für Nicht-HTML-Inhaltstypen hinzugefügt wird. Lösung: Füge Regeln auf Serverebene (in Apache, Nginx oder deinem CDN) hinzu, um X-Robots-Tag-Header für die betreffenden Dateitypen zu injizieren.
Staging- oder Entwicklungsumgebungen ohne noindex belassen
Staging-Sites, die versehentlich öffentlich sind und keine noindex-Direktive haben, können indexiert werden und Duplicate-Content-Probleme mit der Produktionssite verursachen. Lösung: Schütze Staging-Umgebungen immer mit Authentifizierung oder zumindest einem seitenweiten noindex-Meta-Tag und X-Robots-Tag-Header.
Die unavailable_after-Direktive für kurzlebige Inhalte ignorieren
Veranstaltungsseiten und zeitlich begrenzte Aktionen, die Monate nach Ablauf in den Suchergebnissen verbleiben, schaffen eine schlechte Nutzererfahrung. Lösung: Verwende unavailable_after mit dem Ablaufdatum, damit die Seite automatisch de-indexiert wird, wenn der Inhalt irrelevant wird.
Wie du deine Direktiven mit Spider.es prüfst
Spider.es crawlt deine Website so, wie es Suchmaschinen-Bots tun, und liest sowohl Meta-Robots-Tags als auch X-Robots-Tag-Header für jede URL. Der Audit-Report kennzeichnet:
- Seiten mit widersprüchlichen Direktiven (z. B.
noindexim Header, aberindexim Meta-Tag). - Seiten, die von der
robots.txtblockiert sind und gleichzeitig Indexierungsdirektiven tragen, die der Bot nie sehen wird. - Nicht-HTML-Ressourcen ohne X-Robots-Tag-Header, wenn einer benötigt werden könnte.
- Abgelaufene
unavailable_after-Daten, die eine De-Indexierung hätten auslösen sollen.
Regelmäßige Crawls durchzuführen und diese Signale zu überprüfen stellt sicher, dass deine Indexierungskontrollen wie beabsichtigt funktionieren — und nicht still versagen.
Fazit
Meta-Robots-Tags und X-Robots-Tag-Header sind die Präzisionsinstrumente der Crawling-Kontrolle. Während die robots.txt ein breites Tor ist, ermöglichen dir diese Direktiven die Feinabstimmung dessen, was indexiert wird, wie es in den Ergebnissen erscheint und wann es abläuft. Beherrsche den Direktivensatz, verstehe die Prioritätsregeln, vermeide die häufigen Fallstricke und prüfe regelmäßig. Deine Suchpräsenz hängt davon ab.