Cosa sono i bot di crawl dei motori di ricerca (e perché contano)

Sul web quasi tutto inizia con una visita silenziosa. Prima che una pagina compaia su Google, Bing o in un assistente vocale, un bot di crawl — un programma automatico — la scopre, la legge e la classifica. Sono gli esploratori della rete: seguono i link, scaricano documenti, interpretano il codice, rispettano (o dovrebbero rispettare) le istruzioni del sito e inviano ciò che hanno appreso agli indici dei motori. Capire chi sono, come lavorano e di cosa hanno bisogno è fondamentale per posizionarsi, evitare sorprese di performance e distinguere il traffico legittimo da quello abusivo. Questo articolo, pensato per il team Spider.es e per figure tecniche e business, riassume l’essenziale.
Una definizione breve (e precisa)
Un bot di crawl è un agente software che visita URL in modo automatizzato per scaricare contenuti e metadati con un obiettivo specifico: indicizzazione (motori di ricerca come Google o Bing), anteprime (social network che generano schede), assistenti e aggregatori (Applebot per Siri/Spotlight, DuckDuckBot, Bravebot) o archiviazione (Internet Archive).
Ogni bot si identifica con uno User-Agent e, se è affidabile, rispetta robots.txt
e le direttive meta/header. I crawler moderni rendono le pagine (eseguono JavaScript) con motori tipo Chromium headless, avvicinando il crawl all’esperienza reale degli utenti.
I bot che dettano la linea
- Googlebot (e varianti): versione generale mobile-first, Googlebot-Image, -Video, -News/Discover, AdsBot. Lavora in due ondate (download e rendering) e si basa su sitemap e segnali canonici.
- Bingbot: il crawler di Bing e dei servizi collegati (Copilot/Answers) con supporto a
crawl-delay
e IndexNow. - Applebot: alimenta Siri e Spotlight, molto sensibile ai dati strutturati e alle esperienze mobile friendly.
- DuckDuckBot e Bravebot: combinano crawl proprio e risultati federati, premiando siti rapidi e attenti alla privacy.
- YandexBot, Baiduspider, SeznamBot, Naver: imprescindibili nelle rispettive aree geografiche.
- Bot di anteprima (non indicizzano per la ricerca generale): facebookexternalhit, Twitterbot/X, LinkedInBot, Slackbot. Leggono Open Graph/Twitter Cards per creare anteprime arricchite.
- ia_archiver (Internet Archive): orientato alla conservazione; valutate se e come consentirlo.
Come funzionano davvero
1) Scoperta delle URL
- Link interni ed esterni: ogni link follow è una porta aperta.
- Sitemap XML: elenchi di URL prioritarie, segmentabili per tipo o lingua.
- Segnali attivi: ping, API, IndexNow per notificare le novità.
2) Accesso e regole della casa
robots.txt
: file in radice che permette/nega percorsi per User-Agent. Google ignoracrawl-delay
, Bing lo considera.- Meta Robots / X-Robots-Tag: controllo puntuale per URL o tipo di file (header HTTP) con direttive come
noindex
,nofollow
,noarchive
. - Codici HTTP: 200 indicizzabile, 301/308 trasmettono segnali, 302/307 temporanei, 404/410 distinguono “non trovata” da “rimossa”, 5xx/429 ripetuti rallentano il crawl.
3) Rendering e valutazione
- Prima ondata: scarico dell’HTML e delle risorse critiche.
- Seconda ondata: rendering headless per scoprire contenuti generati dal client.
- Misure di qualità: Core Web Vitals, accessibilità, duplicazione (canonica),
hreflang
, dati strutturati.
4) Crawl budget
I motori bilanciano domanda (popolarità, frequenza di aggiornamento) e capacità del server (risposte rapide, stabilità). Un sito sano viene visitato più spesso e in profondità.
Bot legittimi vs impostori
I log sono pieni di finti Googlebot. Per verificare:
- Reverse DNS + conferma diretta: l’indirizzo IP deve risolversi in un host Google e tornare a un IP Google.
- Intervalli IP/ASN ufficiali pubblicati da ciascun provider.
- Bot management: WAF, rate limiting, analisi comportamentale per frenare gli scraper aggressivi.
Non bloccare mai alla cieca. Controlla identità, rispetto delle regole e pattern prima di chiudere l’accesso, o rischi di sparire dagli indici.
Buone pratiche tecniche per convivere con i crawler
- Architettura chiara: URL leggibili, canoniche affidabili, paginazione e filtri sensati.
robots.txt
mirato: consenti solo ciò che serve, documenta le regole per bot.- Sitemap aggiornate: segmentate per tipologia/lingua con
lastmod
realistico. - Performance/stabilità: TTFB basso, pochissimi 5xx, cache/CDN efficace.
- JavaScript SEO sotto controllo: SSR/ISR o rendering ibrido quando il contenuto chiave dipende dal JS.
- Internazionalizzazione:
hreflang
corretto in tutte le varianti. - Gestione duplicati: canoniche coerenti, parametri gestiti.
- Dati strutturati: Schema.org allineato all’intento; test regolari.
- Audit dei log: capire quali bot consumano budget e dove incontrano errori.
- Segnalare le novità: IndexNow per gli engine compatibili, sitemap e link interni per Google.
Cosa ricordare nel 2025
- Mobile-first: la versione mobile governa l’indice di Google.
- E-E-A-T: esperienza, expertise, autorità e fiducia vengono catturate durante il crawl.
- Media: immagini con
alt
descrittivo, video con schema e miniatura accessibile. - Contenuti dinamici: scroll infinito e link JS richiedono URL crawlable.
- Politica di crawl: throttling morbido e fasce orarie rendono meglio di un blocco totale.
Crawl budget: come si guadagna (e come si perde)
- Si guadagna con: server veloci, linking interno chiaro, popolarità esterna, sitemap puliti.
- Si perde con: errori 5xx ricorrenti, parametri infiniti, catene di redirect, contenuti sottili.
Diagnostica rapida dai log
- User-Agent mix: domina Googlebot Mobile? Bingbot passa regolarmente?
- Percorsi più visitati: sono quelli giusti o il budget si disperde in filtri interni?
- Tassi d’errore: monitorare 5xx, 404/410, 301/302 ripetitivi.
- Frequenza di revisita: le nuove URL vengono ripescate in ore o settimane?
- Velocità: confronta i tempi di risposta per bot e utenti.
FAQ
Differenza fra robots.txt
e noindex
? robots.txt
blocca l’accesso; noindex
richiede che il bot legga la pagina. Per rimuovere dall’indice una URL già rastrellata usare noindex
o 410; per evitare sprechi di budget in aree inutili, bloccarle in robots.txt
.
Come verificare se un “Googlebot” è autentico? Reverse DNS + conferma diretta, intervalli IP ufficiali e strumenti di bot management.
Serve il crawl-delay
? Google lo ignora, Bing lo interpreta. Meglio aumentare la capacità o modulare le visite che bloccare.
Cos’è IndexNow? Un protocollo per notificare ai motori compatibili (Bing e partner) nuove o aggiornate URL. Utile per siti a forte rotazione.
In sintesi
I bot di crawl sono la porta d’ingresso alla visibilità organica. Prima di ogni clic umano c’è sempre un crawler che, in silenzio, apre la porta. robots.txt
chirurgici, sitemap vivi, server sani e log monitorati sono investimenti di business. Spider.es è qui per ricordartelo.