Come monitorare quali bot visitano il tuo sito web

Il tuo sito web ha più visitatori di quanto pensi — e la maggior parte non sono umani. Crawler dei motori di ricerca, bot di anteprima dei social media, scraper per l'addestramento IA, strumenti SEO, monitor di uptime e scraper malevoli inviano tutti richieste automatizzate al tuo server 24 ore su 24. Sapere chi visita, quanto spesso e cosa fa è essenziale per la sicurezza, le prestazioni e la SEO. Questa guida ti accompagna attraverso i passaggi pratici per monitorare, verificare e gestire il traffico bot su qualsiasi sito web.

Perché il monitoraggio dei bot è importante

Il traffico bot rappresenta tipicamente dal 30% al 50% di tutto il traffico web, e su alcuni siti supera il traffico umano. Non tutti i bot sono uguali:

  • Bot benefici (Googlebot, Bingbot, Applebot) indicizzano i tuoi contenuti e generano traffico organico. Bloccarli per errore significa scomparire dai risultati di ricerca.
  • Bot neutrali (crawler SEO come Screaming Frog o Ahrefs, monitor di uptime) servono scopi legittimi ma consumano risorse del server.
  • Bot malevoli (scraper, bot per credential stuffing, scanner di vulnerabilità, crawler falsi) rubano contenuti, attaccano l'infrastruttura e distorcono le analitiche.

Senza monitoraggio, non puoi distinguere la differenza. Potresti bloccare un crawler legittimo che sta cercando di indicizzare le tue nuove pagine prodotto, o potresti servire migliaia di richieste all'ora a uno scraper che sta clonando l'intero sito.

Analisi dei log del server: le fondamenta

I log del server sono la fonte più affidabile di dati sull'attività dei bot. A differenza delle analitiche basate su JavaScript (che la maggior parte dei bot non esegue mai), i log del server catturano ogni richiesta HTTP indipendentemente dal client.

Comprendere il formato dei log

La maggior parte dei web server usa il Combined Log Format di default. Una voce tipica appare così:

66.249.79.1 - - [31/Mar/2026:14:22:05 +0000] "GET /products/widget HTTP/1.1" 200 12543 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

I campi chiave per il monitoraggio dei bot sono:

  • Indirizzo IP (66.249.79.1) — usato per la verifica e la geolocalizzazione.
  • URL richiesto (/products/widget) — mostra quali pagine visitano i bot.
  • Codice di stato (200) — rivela gli errori che i bot incontrano.
  • Stringa User-Agent — l'identità autodichiarata del bot.

Filtrare le richieste dei bot

Estrai il traffico bot filtrando sul campo User-Agent. Pattern comuni da cercare includono:

  • Googlebot, bingbot, Applebot, DuckDuckBot — principali motori di ricerca.
  • facebookexternalhit, Twitterbot, LinkedInBot, Slackbot — bot di anteprima social.
  • AhrefsBot, SemrushBot, MJ12bot, DotBot — strumenti SEO e marketing.
  • GPTBot, ClaudeBot, Google-Extended — bot IA per addestramento e recupero.
  • python-requests, curl, wget, Go-http-client — librerie generiche spesso usate da scraper personalizzati.

Costruisci uno script o usa uno strumento di analisi log per raggruppare le richieste per User-Agent, contare gli hit giornalieri, elencare gli URL più richiesti e tracciare la distribuzione dei codici di stato per bot.

Strumenti per l'analisi dei log

Non hai bisogno di software enterprise per iniziare. Opzioni pratiche includono:

  • Strumenti da riga di comando: awk, grep, sort e uniq possono estrarre pattern di traffico bot dai file di log grezzi in pochi minuti.
  • GoAccess: un analizzatore di log in tempo reale che funziona nel terminale o genera report HTML. Eccellente per panoramiche rapide.
  • ELK Stack (Elasticsearch, Logstash, Kibana): potente per analisi su larga scala con dashboard e alerting.
  • Servizi di logging cloud: Datadog, Splunk, Google Cloud Logging e AWS CloudWatch supportano tutti l'ingestione di log con dashboard specifiche per i bot.

Identificare i bot per User-Agent

La stringa User-Agent è l'identità autodichiarata di un bot. I crawler legittimi usano stringhe ben documentate che includono il loro nome e un URL con maggiori informazioni. Tuttavia, lo User-Agent è banalmente facile da falsificare — qualsiasi client HTTP può impostarlo su qualsiasi stringa desideri.

Questo significa che il filtraggio per User-Agent è utile per la categorizzazione ma insufficiente per la verifica. Una richiesta che dichiara di essere Googlebot potrebbe provenire da uno scraper in un data center che non ha nulla a che fare con Google. Ecco perché la verifica è un passaggio separato ed essenziale.

Verificare i bot legittimi con DNS inverso

Lo standard di riferimento per verificare che un bot sia chi dichiara di essere è il lookup DNS inverso seguito da una conferma DNS diretta. Ecco il processo:

Passo 1: Lookup DNS inverso

Prendi l'indirizzo IP dalla voce del log ed esegui un lookup DNS inverso:

host 66.249.79.1

Se il bot è un Googlebot legittimo, il risultato sarà un hostname che termina con .googlebot.com o .google.com:

1.79.249.66.in-addr.arpa domain name pointer crawl-66-249-79-1.googlebot.com.

Passo 2: Conferma DNS diretta

Ora risolvi quell'hostname in un indirizzo IP:

host crawl-66-249-79-1.googlebot.com

Se l'IP restituito corrisponde a quello originale (66.249.79.1), il bot è verificato. Se il lookup inverso restituisce un hostname che non appartiene a Google, o il lookup diretto non corrisponde, la richiesta proviene da un impostore.

Verifica per altri motori di ricerca

Ogni principale motore di ricerca pubblica i propri hostname e intervalli IP legittimi:

  • Googlebot: hostname che terminano con .googlebot.com o .google.com.
  • Bingbot: hostname che terminano con .search.msn.com.
  • Applebot: intervalli IP pubblicati da Apple, verificabili tramite DNS inverso a .applebot.apple.com.
  • Yandex: hostname che terminano con .yandex.com, .yandex.ru o .yandex.net.

Rilevare Googlebot falsi

I Googlebot falsi sono un problema persistente. Scraper, spammer e scanner di vulnerabilità si mascherano frequentemente con la stringa User-Agent di Googlebot per bypassare le restrizioni di accesso che i webmaster impostano per bot sconosciuti.

Segnali d'allarme per Googlebot falsi

  • L'indirizzo IP non appartiene alla rete di Google. La verifica DNS inversa è definitiva — se l'hostname non termina con .googlebot.com o .google.com, non è Google.
  • Pattern di crawling insoliti. Il vero Googlebot rispetta il robots.txt, distribuisce le richieste nel tempo e non martella un singolo endpoint. I bot falsi spesso effettuano richieste rapide e sequenziali o prendono di mira pagine di login ed endpoint di form.
  • Richieste da intervalli IP residenziali o commerciali. Google effettua il crawling dai propri data center, non da ISP, VPN o provider cloud che non sono Google Cloud.
  • Comportamento di rendering assente. Il vero Googlebot renderizza il JavaScript. I bot falsi che dichiarano di essere Googlebot tipicamente recuperano solo l'HTML.

Rilevamento automatizzato dei bot falsi

Per siti con traffico elevato, la verifica manuale è impraticabile. Automatizzala:

  1. Estraendo tutti gli IP che dichiarano uno User-Agent Googlebot dai tuoi log.
  2. Eseguendo lookup DNS inversi in batch.
  3. Segnalando qualsiasi IP che non si risolve in un hostname di proprietà Google.
  4. Opzionalmente bloccando quegli IP a livello di firewall o WAF.

Usare le analitiche per filtrare il traffico bot

Gli strumenti di analitiche basati su JavaScript come Google Analytics filtrano naturalmente la maggior parte dei bot perché i bot tipicamente non eseguono JavaScript. Tuttavia, alcuni bot sofisticati eseguono JS e possono inquinare i tuoi dati con sessioni false, bounce rate distorti e pageview fantasma.

Passi per pulire le tue analitiche

  • Abilita il filtraggio bot in Google Analytics (Amministrazione > Impostazioni vista > Casella Filtraggio bot in Universal Analytics, o l'equivalente in GA4).
  • Crea segmenti che escludano pattern di traffico bot noti: sessioni con durata zero secondi, visite a pagine honeypot, traffico da ASN di data center.
  • Monitora il referral spam: URL referral falsi che appaiono nei tuoi report di acquisizione sono solitamente generati da bot. Filtrali per hostname o fonte di referral.
  • Incrocia con i log del server: se le analitiche mostrano 10.000 sessioni giornaliere ma i log mostrano 50.000 richieste, la differenza è in gran parte traffico bot. Capire questo divario ti aiuta a dimensionare correttamente la tua infrastruttura.

Strumenti e servizi per la gestione dei bot

Man mano che il traffico bot cresce in volume e sofisticazione, soluzioni dedicate alla gestione dei bot sono diventate essenziali per molti siti.

Web Application Firewall (WAF)

Servizi come Cloudflare, AWS WAF e Sucuri offrono il rilevamento bot come parte della loro suite di sicurezza. Usano database di reputazione IP, analisi comportamentale, challenge JavaScript e CAPTCHA per distinguere i bot legittimi da quelli malevoli. La maggior parte ti permette di creare regole personalizzate che mettono in whitelist i bot dei motori di ricerca verificati sfidando o bloccando tutto il resto.

Piattaforme dedicate alla gestione dei bot

Per operazioni più grandi, piattaforme come Cloudflare Bot Management, Akamai Bot Manager e DataDome forniscono funzionalità avanzate: classificazione bot basata su machine learning, fingerprinting dei dispositivi, dashboard in tempo reale e azioni di risposta automatizzate. Sono particolarmente preziose per siti e-commerce che affrontano price scraping, accaparramento di inventario e attacchi di account takeover.

robots.txt e meta robots

Non trascurare le basi. Un file robots.txt ben mantenuto con regole specifiche per User-Agent, combinato con direttive meta robots o X-Robots-Tag per un controllo granulare, resta la prima linea di difesa per gestire i bot ben comportati. Questi meccanismi non fermano i bot malevoli (che ignorano le regole), ma sono essenziali per dirigere i crawler legittimi.

Costruire un workflow di monitoraggio dei bot

Mettendo tutto insieme, ecco un workflow pratico per il monitoraggio continuo dei bot:

  1. Revisione settimanale dei log: controlla volume del traffico bot, principali User-Agent, URL più scansionati e tassi di errore.
  2. Verifica mensile: esegui verifiche DNS inverse sui principali IP che dichiarano di essere bot dei motori di ricerca.
  3. Audit trimestrale: rivedi le regole del robots.txt, controlla nuovi bot che dovrebbero essere consentiti o bloccati e verifica che le tue sitemap vengano recuperate.
  4. Alert sulle anomalie: configura alert per picchi improvvisi nel traffico bot, tassi di errore insoliti o nuovi User-Agent che appaiono in volume.

Come aiuta Spider.es

Spider.es verifica come il tuo sito risponde all'accesso dei crawler — controllando le regole del robots.txt, testando l'accessibilità delle pagine e confermando che le direttive che i bot incontrano corrispondano alle tue intenzioni. Simulando il comportamento dei bot, rivela discrepanze tra ciò che pensi che i bot vedano e ciò che sperimentano effettivamente. Usalo insieme all'analisi dei log per ottenere un quadro completo dell'ecosistema bot del tuo sito.

Considerazioni finali

Il monitoraggio dei bot non è un audit una tantum — è una pratica continua. Il panorama del traffico automatizzato evolve costantemente, con nuovi crawler IA, nuovi scraper e nuovi vettori di attacco che appaiono regolarmente. I siti che mantengono visibilità, prestazioni e sicurezza sono quelli che sanno esattamente chi bussa alla loro porta e se farlo entrare.

Torna al blog