Wie du überwachst, welche Bots deine Website besuchen
Deine Website hat mehr Besucher als du denkst — und die meisten davon sind nicht menschlich. Suchmaschinen-Crawler, Social-Media-Vorschau-Bots, KI-Training-Scraper, SEO-Tools, Uptime-Monitore und bösartige Scraper senden rund um die Uhr automatisierte Anfragen an deinen Server. Zu wissen, wer besucht, wie oft und was sie tun, ist essenziell für Sicherheit, Performance und SEO. Dieser Leitfaden führt dich durch die praktischen Schritte zur Überwachung, Verifizierung und Verwaltung von Bot-Traffic auf jeder Website.
Warum Bot-Monitoring wichtig ist
Bot-Traffic macht typischerweise 30% bis 50% des gesamten Web-Traffics aus, und auf manchen Websites übersteigt er den menschlichen Traffic vollständig. Nicht alle Bots sind gleich:
- Nützliche Bots (Googlebot, Bingbot, Applebot) indexieren deine Inhalte und generieren organischen Traffic. Sie versehentlich zu blockieren bedeutet, aus den Suchergebnissen zu verschwinden.
- Neutrale Bots (SEO-Crawler wie Screaming Frog oder Ahrefs, Uptime-Monitore) dienen legitimen Zwecken, verbrauchen aber Serverressourcen.
- Bösartige Bots (Scraper, Credential-Stuffer, Schwachstellen-Scanner, falsche Crawler) stehlen Inhalte, greifen die Infrastruktur an und verzerren Analysen.
Ohne Monitoring kannst du den Unterschied nicht erkennen. Du könntest einen legitimen Crawler blockieren, der versucht, deine neuen Produktseiten zu indexieren, oder du könntest Tausende von Anfragen pro Stunde an einen Scraper bedienen, der deine gesamte Website klont.
Server-Log-Analyse: das Fundament
Server-Logs sind die zuverlässigste Quelle für Bot-Aktivitätsdaten. Anders als JavaScript-basierte Analysen (die die meisten Bots nie ausführen) erfassen Server-Logs jede HTTP-Anfrage unabhängig vom Client.
Log-Format verstehen
Die meisten Webserver verwenden standardmäßig das Combined Log Format. Ein typischer Eintrag sieht so aus:
66.249.79.1 - - [31/Mar/2026:14:22:05 +0000] "GET /products/widget HTTP/1.1" 200 12543 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Die Schlüsselfelder für Bot-Monitoring sind:
- IP-Adresse (66.249.79.1) — zur Verifizierung und Geolokalisierung.
- Angeforderte URL (/products/widget) — zeigt, welche Seiten Bots besuchen.
- Statuscode (200) — offenbart Fehler, auf die Bots stoßen.
- User-Agent-String — die selbst deklarierte Identität des Bots.
Bot-Anfragen filtern
Extrahiere Bot-Traffic, indem du nach dem User-Agent-Feld filterst. Häufige Muster, nach denen du suchen solltest:
Googlebot,bingbot,Applebot,DuckDuckBot— große Suchmaschinen.facebookexternalhit,Twitterbot,LinkedInBot,Slackbot— Social-Vorschau-Bots.AhrefsBot,SemrushBot,MJ12bot,DotBot— SEO- und Marketing-Tools.GPTBot,ClaudeBot,Google-Extended— KI-Training- und Retrieval-Bots.python-requests,curl,wget,Go-http-client— generische Bibliotheken, die oft von benutzerdefinierten Scrapern verwendet werden.
Erstelle ein Skript oder verwende ein Log-Analyse-Tool, um Anfragen nach User-Agent zu gruppieren, tägliche Zugriffe zu zählen, die meistangeforderten URLs aufzulisten und die Statuscode-Verteilung pro Bot zu verfolgen.
Tools für die Log-Analyse
Du brauchst keine Enterprise-Software zum Anfangen. Praktische Optionen sind:
- Kommandozeilen-Tools:
awk,grep,sortunduniqkönnen Bot-Traffic-Muster aus rohen Log-Dateien in Minuten extrahieren. - GoAccess: Ein Echtzeit-Log-Analysator, der im Terminal läuft oder HTML-Reports generiert. Hervorragend für schnelle Überblicke.
- ELK Stack (Elasticsearch, Logstash, Kibana): Leistungsstark für großmaßstäbliche Analyse mit Dashboards und Alerting.
- Cloud-Logging-Dienste: Datadog, Splunk, Google Cloud Logging und AWS CloudWatch unterstützen alle Log-Ingestion mit Bot-spezifischen Dashboards.
Bots per User-Agent identifizieren
Der User-Agent-String ist die selbst deklarierte Identität eines Bots. Legitime Crawler verwenden gut dokumentierte Strings, die ihren Namen und eine URL mit weiteren Informationen enthalten. Allerdings ist der User-Agent trivial einfach zu fälschen — jeder HTTP-Client kann ihn auf einen beliebigen String setzen.
Das bedeutet, dass User-Agent-Filterung für die Kategorisierung nützlich, aber für die Verifizierung unzureichend ist. Eine Anfrage, die behauptet, Googlebot zu sein, könnte von einem Scraper in einem Rechenzentrum stammen, der nichts mit Google zu tun hat. Deshalb ist die Verifizierung ein separater, essenzieller Schritt.
Legitime Bots per Reverse-DNS verifizieren
Der Goldstandard zur Verifizierung, dass ein Bot ist, wer er vorgibt zu sein, ist der Reverse-DNS-Lookup gefolgt von einer Forward-DNS-Bestätigung. So funktioniert der Prozess:
Schritt 1: Reverse-DNS-Lookup
Nimm die IP-Adresse aus dem Log-Eintrag und führe einen Reverse-DNS-Lookup durch:
host 66.249.79.1
Wenn der Bot ein legitimer Googlebot ist, wird das Ergebnis ein Hostname sein, der auf .googlebot.com oder .google.com endet:
1.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-1.googlebot.com.
Schritt 2: Forward-DNS-Bestätigung
Löse nun diesen Hostnamen wieder in eine IP-Adresse auf:
host crawl-66-249-79-1.googlebot.com
Wenn die zurückgegebene IP mit der ursprünglichen (66.249.79.1) übereinstimmt, ist der Bot verifiziert. Wenn der Reverse-Lookup einen Hostnamen zurückgibt, der nicht Google gehört, oder der Forward-Lookup nicht übereinstimmt, kommt die Anfrage von einem Imitator.
Verifizierung für andere Suchmaschinen
Jede große Suchmaschine veröffentlicht ihre legitimen Hostnamen und IP-Bereiche:
- Googlebot: Hostnamen endend auf
.googlebot.comoder.google.com. - Bingbot: Hostnamen endend auf
.search.msn.com. - Applebot: Von Apple veröffentlichte IP-Bereiche, verifizierbar per Reverse-DNS auf
.applebot.apple.com. - Yandex: Hostnamen endend auf
.yandex.com,.yandex.ruoder.yandex.net.
Falsche Googlebots erkennen
Falsche Googlebots sind ein anhaltendes Problem. Scraper, Spammer und Schwachstellen-Scanner tarnen sich häufig mit Googlebots User-Agent-String, um Zugriffsbeschränkungen zu umgehen, die Webmaster für unbekannte Bots einrichten.
Warnsignale für falsche Googlebots
- IP-Adresse gehört nicht zu Googles Netzwerk. Der Reverse-DNS-Check ist definitiv — wenn der Hostname nicht auf
.googlebot.comoder.google.comendet, ist es nicht Google. - Ungewöhnliche Crawling-Muster. Der echte Googlebot respektiert die
robots.txt, verteilt Anfragen über die Zeit und hämmert nicht auf einen einzigen Endpunkt. Falsche Bots stellen oft schnelle, sequenzielle Anfragen oder zielen auf Login-Seiten und Formular-Endpunkte. - Anfragen von Wohn- oder kommerziellen IP-Bereichen. Google crawlt von seinen eigenen Rechenzentren, nicht von ISPs, VPNs oder Cloud-Anbietern, die nicht Google Cloud sind.
- Fehlendes Rendering-Verhalten. Der echte Googlebot rendert JavaScript. Falsche Bots, die vorgeben Googlebot zu sein, rufen typischerweise nur HTML ab.
Automatisierte Erkennung falscher Bots
Für Websites mit hohem Traffic ist manuelle Verifizierung unpraktisch. Automatisiere sie:
- Extrahiere alle IPs, die einen Googlebot-User-Agent beanspruchen, aus deinen Logs.
- Führe Batch-Reverse-DNS-Lookups durch.
- Markiere jede IP, die nicht zu einem Google-eigenen Hostnamen auflöst.
- Blockiere diese IPs optional auf Firewall- oder WAF-Ebene.
Analytics zur Filterung von Bot-Traffic nutzen
JavaScript-basierte Analytics-Tools wie Google Analytics filtern die meisten Bots natürlich heraus, weil Bots typischerweise kein JavaScript ausführen. Jedoch führen manche ausgefeilte Bots JS aus und können deine Daten mit falschen Sitzungen, verzerrten Absprungraten und Phantom-Seitenaufrufen verschmutzen.
Schritte zur Bereinigung deiner Analytics
- Bot-Filterung aktivieren in Google Analytics (Verwaltung > View-Einstellungen > Bot-Filterung-Checkbox in Universal Analytics oder das Äquivalent in GA4).
- Segmente erstellen, die bekannte Bot-Traffic-Muster ausschließen: Sitzungen mit null Sekunden Dauer, Besuche auf Honeypot-Seiten, Traffic von Rechenzentrums-ASNs.
- Referral-Spam überwachen: Falsche Referral-URLs, die in deinen Akquisitionsberichten erscheinen, sind normalerweise Bot-gesteuert. Filtere sie nach Hostname oder Referral-Quelle.
- Mit Server-Logs abgleichen: Wenn Analytics 10.000 tägliche Sitzungen zeigt, aber Logs 50.000 Anfragen zeigen, ist die Differenz größtenteils Bot-Traffic. Diesen Unterschied zu verstehen hilft dir, deine Infrastruktur korrekt zu dimensionieren.
Tools und Dienste für Bot-Management
Da Bot-Traffic in Volumen und Raffinesse wächst, sind dedizierte Bot-Management-Lösungen für viele Websites essenziell geworden.
Web Application Firewalls (WAFs)
Dienste wie Cloudflare, AWS WAF und Sucuri bieten Bot-Erkennung als Teil ihrer Sicherheitssuite. Sie nutzen IP-Reputationsdatenbanken, Verhaltensanalyse, JavaScript-Challenges und CAPTCHA-Gates, um legitime Bots von bösartigen zu unterscheiden. Die meisten erlauben benutzerdefinierte Regeln, die verifizierte Suchmaschinen-Bots auf die Whitelist setzen und alles andere herausfordern oder blockieren.
Dedizierte Bot-Management-Plattformen
Für größere Operationen bieten Plattformen wie Cloudflare Bot Management, Akamai Bot Manager und DataDome fortgeschrittene Fähigkeiten: Machine-Learning-basierte Bot-Klassifizierung, Device-Fingerprinting, Echtzeit-Dashboards und automatisierte Reaktionsmaßnahmen. Diese sind besonders wertvoll für E-Commerce-Websites, die mit Price-Scraping, Inventar-Hortung und Account-Takeover-Angriffen konfrontiert sind.
robots.txt und Meta Robots
Übersehe nicht die Grundlagen. Eine gut gepflegte robots.txt-Datei mit spezifischen Regeln pro User-Agent, kombiniert mit meta robots- oder X-Robots-Tag-Direktiven für feinkörnige Kontrolle, bleibt die erste Verteidigungslinie für die Verwaltung gut erzogener Bots. Diese Mechanismen stoppen keine bösartigen Bots (die Regeln ignorieren), sind aber essenziell für die Lenkung legitimer Crawler.
Einen Bot-Monitoring-Workflow aufbauen
Alles zusammengesetzt ergibt sich ein praktischer Workflow für die laufende Bot-Überwachung:
- Wöchentliche Log-Überprüfung: Prüfe Bot-Traffic-Volumen, Top-User-Agents, meistgecrawlte URLs und Fehlerraten.
- Monatliche Verifizierung: Führe Reverse-DNS-Checks der Top-IPs durch, die beanspruchen, Suchmaschinen-Bots zu sein.
- Vierteljährliches Audit: Überprüfe
robots.txt-Regeln, prüfe auf neue Bots, die zugelassen oder blockiert werden sollten, und verifiziere, dass deine Sitemaps abgerufen werden. - Alerts bei Anomalien: Richte Alerts für plötzliche Spitzen im Bot-Traffic, ungewöhnliche Fehlerraten oder neue User-Agents ein, die in größerem Volumen auftauchen.
Wie Spider.es hilft
Spider.es prüft, wie deine Website auf Crawler-Zugriffe reagiert — verifiziert robots.txt-Regeln, testet die Zugänglichkeit von Seiten und bestätigt, dass die Direktiven, auf die Bots treffen, deinen Absichten entsprechen. Durch die Simulation von Bot-Verhalten deckt es Diskrepanzen zwischen dem auf, was du denkst, dass Bots sehen, und dem, was sie tatsächlich erleben. Nutze es zusammen mit deiner Log-Analyse, um ein vollständiges Bild des Bot-Ökosystems deiner Website zu erhalten.
Fazit
Bot-Monitoring ist kein einmaliges Audit — es ist eine fortlaufende Praxis. Die Landschaft des automatisierten Traffics entwickelt sich ständig weiter, mit neuen KI-Crawlern, neuen Scrapern und neuen Angriffsvektoren, die regelmäßig auftauchen. Die Websites, die Sichtbarkeit, Performance und Sicherheit aufrechterhalten, sind diejenigen, die genau wissen, wer an ihre Tür klopft und ob sie ihn hereinlassen sollten.