Perché Google ignora le tue pagine: problemi di indicizzazione risolti
Pubblichi una pagina. Aspetti. I giorni diventano settimane, e la pagina non compare mai su Google. Nessuna impressione in Search Console, nessun traffico, nessun segno che Google sappia che la pagina esiste. Questa è una delle esperienze più frustranti nella SEO — e una delle più comuni.
La buona notizia: Google quasi sempre ti dice perché ha ignorato una pagina. La cattiva notizia: i segnali sono sparsi tra molteplici strumenti e report, e le cause alla radice vanno da errori di configurazione ovvi a difetti architetturali sottili. Questa guida analizza ogni principale ragione per cui Google potrebbe rifiutare di indicizzare i tuoi contenuti, con passaggi diagnostici pratici per ciascuna.
1. La direttiva noindex
La causa più diretta. Se una pagina ha una direttiva noindex, Google la scansionerà ma la escluderà esplicitamente dall'indice.
Dove può apparire noindex:
- Meta tag:
<meta name="robots" content="noindex">nell'<head>HTML. - Header X-Robots-Tag:
X-Robots-Tag: noindexinviato come header di risposta HTTP. Questo è particolarmente insidioso perché è invisibile nel sorgente della pagina — devi ispezionare direttamente gli header di risposta.
Come diagnosticare
- In Google Search Console, vai al report Pagine. Cerca lo stato "Esclusa dal tag 'noindex'".
- Usa lo strumento Controllo URL per verificare un URL specifico. Mostrerà se Google ha rilevato un
noindex. - Esegui un report Spider.es sul tuo dominio per vedere quali bot incontrano direttive
noindexe da dove provengono. - Controlla i tuoi header di risposta HTTP con
curl -Io i DevTools del browser. Un X-Robots-Tag impostato a livello di server o CDN può sovrascrivere ciò che il tuo CMS intende.
Colpevoli comuni: ambienti di staging le cui impostazioni noindex sono state trasferite in produzione, plugin CMS che aggiungono noindex a pagine di paginazione o archivio, e livelli CDN o reverse-proxy che iniettano header X-Robots-Tag.
2. Canonical che punta altrove
Il tag rel="canonical" dice a Google quale URL è la versione "preferita" di una pagina. Se la pagina A dichiara come canonical la pagina B, Google potrebbe indicizzare la pagina B e ignorare la pagina A — anche se la pagina A ha contenuti unici.
Errori comuni con i canonical
- Canonical auto-referenziale errato: un tag canonical che include parametri di query, protocollo errato (http vs https) o incongruenze nello slash finale.
- Canonical generati dal CMS: alcuni sistemi puntano pagine paginate, viste filtrate o versioni AMP a target canonical errati.
- Canonical cross-domain: se sindichi i contenuti e il canonical del partner di sindacazione punta al proprio URL, Google potrebbe scegliere la loro versione invece della tua.
- Segnali in conflitto: il canonical nell'HTML dice una cosa, l'header HTTP ne dice un'altra, e la sitemap elenca un terzo URL. Google deve indovinare — e potrebbe indovinare male.
Come diagnosticare
Usa lo strumento Controllo URL in Search Console. Sotto "Indicizzazione della pagina", mostra il canonical dichiarato dall'utente e il canonical selezionato da Google. Se differiscono, hai un problema.
3. Spreco di crawl budget
Google assegna un crawl budget finito a ogni sito — una combinazione di quanto spesso vuole fare il crawling (domanda) e quanto velocemente il tuo server può gestire le richieste (capacità). Se il tuo sito spreca budget su pagine di basso valore, quelle importanti potrebbero non venire mai scansionate.
Divoratori di budget
- Navigazione a faccette: migliaia di combinazioni di filtri che generano pagine quasi duplicate (
/shoes?color=red&size=10&brand=nike&sort=price). - Pagine dei risultati di ricerca interna: ogni query crea un nuovo URL che Google potrebbe provare a scansionare.
- Calendario o paginazione infiniti: i crawler possono seguire i link "successivo" all'infinito.
- ID di sessione negli URL: ogni sessione crea un duplicato di ogni pagina.
- Soft 404: pagine che restituiscono un codice di stato 200 ma mostrano contenuti "nessun risultato trovato". Google spreca budget scansionandole e poi deve capire che sono vuote.
Come diagnosticare
In Search Console, il report Statistiche di scansione mostra il totale delle richieste, il tempo di risposta medio e la distribuzione dei codici di risposta. Se la maggior parte degli URL scansionati sono pagine di filtro di basso valore, stai dissanguando il budget. L'analisi dei log del server fornisce informazioni ancora più approfondite — identifica quali percorsi Googlebot colpisce maggiormente.
4. Contenuti scarsi o duplicati
Google potrebbe scansionare una pagina e poi decidere che non vale la pena indicizzarla. Il report Indicizzazione delle pagine la chiama "Scansionata: attualmente non indicizzata" o "Rilevata: attualmente non indicizzata".
Le ragioni includono:
- Contenuti scarsi: pagine con pochissimo testo unico — template boilerplate con contenuti minimi, articoli in bozza, pagine di categoria generate automaticamente senza descrizioni.
- Contenuti quasi duplicati: più pagine con testo sostanzialmente simile. Google ne sceglie una e scarta il resto.
- Bassa qualità o bassa domanda: Google potrebbe semplicemente decidere che la pagina non aggiunge abbastanza valore all'indice per giustificarne l'inclusione.
Come risolvere
Consolida le pagine con contenuti scarsi in pagine meno numerose ma più ricche. Aggiungi contenuti unici e sostanziali alle pagine template. Usa tag canonical per puntare i duplicati alla versione preferita. Se una pagina non ha davvero valore, considera di rimuoverla o di bloccarla nel robots.txt per liberare crawl budget per le pagine che contano.
5. Errori del server (5xx)
Quando Googlebot incontra errori del server 5xx persistenti, riduce la frequenza di crawling e potrebbe eventualmente rimuovere le pagine interessate dall'indice. Un singolo errore 500 durante un'interruzione temporanea va bene — Google riproverà. Ma errori del server ricorrenti segnalano un host inaffidabile, e Google risponde scansionando meno frequentemente e meno in profondità.
Come diagnosticare
- Search Console > Statistiche di scansione: cerca picchi nelle risposte 5xx.
- Search Console > Report Pagine: verifica le voci "Errore del server (5xx)".
- Monitoraggio del server: usa strumenti di uptime-monitoring per intercettare interruzioni e risposte lente prima che lo faccia Googlebot.
6. Catene e loop di redirect
Una catena di redirect si verifica quando l'URL A reindirizza a B, che reindirizza a C, che reindirizza a D. Google segue fino a 10 redirect in una catena, ma ogni passaggio spreca crawl budget e diluisce il link equity. Catene lunghe o loop fanno sì che Google rinunci del tutto.
Scenari comuni
- Migrazione HTTP-a-HTTPS sovrapposta a un redirect www-a-non-www:
http://www.example.com→https://www.example.com→https://example.com. Sono due passaggi per ogni vecchio link. - Modifiche slug del CMS che creano una catena: il vecchio slug reindirizza a uno slug intermedio che reindirizza a quello corrente.
- Loop di redirect: A reindirizza a B e B reindirizza ad A. Googlebot rinuncia immediatamente.
Come risolvere
Appiattisci le catene in modo che ogni redirect punti direttamente alla destinazione finale. Verifica i redirect dopo ogni migrazione. Usa strumenti come Spider.es, Screaming Frog o curl -L da riga di comando per tracciare il percorso completo dei redirect.
7. Pagine orfane
Una pagina orfana è un URL che esiste sul tuo server ma non ha link interni che puntano ad esso. Se nessuna pagina del tuo sito la linka e non è in una sitemap, Google non ha modo di scoprirla — anche se il contenuto è eccellente.
Come diagnosticare
Confronta gli URL nella tua sitemap e nei log del server con gli URL trovati in un crawl completo del sito. Qualsiasi URL che appare nella sitemap ma non nel grafo del crawl è effettivamente orfano. Controlla anche il report "Rilevata: attualmente non indicizzata" di Search Console: se Google ha trovato un URL (magari tramite un link esterno o una vecchia sitemap) ma non ci ritorna, un linking interno debole potrebbe essere la causa.
Come risolvere
Aggiungi link interni contestuali da pagine rilevanti e ben scansionate. Assicurati che le pagine orfane siano incluse nella tua XML sitemap. Verifica la struttura del sito regolarmente — specialmente dopo ridisegni, migrazioni o grandi cancellazioni di contenuti che potrebbero rompere i link esistenti.
8. Bloccata da robots.txt
Se robots.txt blocca Googlebot da un URL, Google non può scansionare la pagina. Potrebbe comunque indicizzare l'URL (se altre pagine lo linkano) ma senza alcun contenuto — risultando in un listing minimo e poco utile. Il report Pagine di Search Console li mostra come "Bloccata da robots.txt".
Questo è uno dei problemi più facili da identificare e risolvere. Esegui un report Spider.es per vedere esattamente quali regole influenzano Googlebot su ogni percorso, poi aggiorna il tuo robots.txt di conseguenza.
Una checklist diagnostica
Quando una pagina non è indicizzata, segui questa sequenza:
- Controllo URL in Search Console: Google conosce la pagina? Quale stato riporta?
- Verifica noindex: ispeziona i meta tag e gli header di risposta HTTP.
- Verifica il canonical: punta a se stesso o altrove?
- Verifica robots.txt: l'URL è bloccato? Usa Spider.es per un'analisi per bot.
- Verifica il codice di stato HTTP: è 200? Un redirect? Un 404 o 5xx?
- Verifica i link interni: puoi raggiungere la pagina seguendo i link dalla homepage?
- Verifica la sitemap: l'URL è elencato?
- Verifica la qualità dei contenuti: ci sono abbastanza contenuti unici e di valore per giustificare l'indicizzazione?
Considerazioni finali
Che Google ignori le tue pagine raramente è casuale. C'è quasi sempre un segnale tecnico che dice al crawler di saltare, differire o deprioritizzare. La sfida è trovare quel segnale tra le dozzine di possibili cause. Una diagnosi sistematica — partendo da Search Console e integrata con strumenti come Spider.es che mostrano la prospettiva del crawler — trasforma un problema opaco in uno risolvibile. Correggi la causa alla radice, reinvia l'URL e monitora fino a quando Google lo raccoglie.