Perché Google ignora le tue pagine: problemi di indicizzazione risolti

Pubblicato il 1 aprile 2026

Pubblichi una pagina. Aspetti. I giorni diventano settimane, e la pagina non compare mai su Google. Nessuna impressione in Search Console, nessun traffico, nessun segno che Google sappia che la pagina esiste. Questa è una delle esperienze più frustranti nella SEO — e una delle più comuni.

La buona notizia: Google quasi sempre ti dice perché ha ignorato una pagina. La cattiva notizia: i segnali sono sparsi tra molteplici strumenti e report, e le cause alla radice vanno da errori di configurazione ovvi a difetti architetturali sottili. Questa guida analizza ogni principale ragione per cui Google potrebbe rifiutare di indicizzare i tuoi contenuti, con passaggi diagnostici pratici per ciascuna.

1. La direttiva noindex

La causa più diretta. Se una pagina ha una direttiva noindex, Google la scansionerà ma la escluderà esplicitamente dall'indice.

Dove può apparire noindex:

Meta tag: <meta name="robots" content="noindex"> nell'<head> HTML.
Header X-Robots-Tag: X-Robots-Tag: noindex inviato come header di risposta HTTP. Questo è particolarmente insidioso perché è invisibile nel sorgente della pagina — devi ispezionare direttamente gli header di risposta.

Come diagnosticare

In Google Search Console, vai al report Pagine. Cerca lo stato "Esclusa dal tag 'noindex'".
Usa lo strumento Controllo URL per verificare un URL specifico. Mostrerà se Google ha rilevato un noindex.
Esegui un report Spider.es sul tuo dominio per vedere quali bot incontrano direttive noindex e da dove provengono.
Controlla i tuoi header di risposta HTTP con curl -I o i DevTools del browser. Un X-Robots-Tag impostato a livello di server o CDN può sovrascrivere ciò che il tuo CMS intende.

Colpevoli comuni: ambienti di staging le cui impostazioni noindex sono state trasferite in produzione, plugin CMS che aggiungono noindex a pagine di paginazione o archivio, e livelli CDN o reverse-proxy che iniettano header X-Robots-Tag.

2. Canonical che punta altrove

Il tag rel="canonical" dice a Google quale URL è la versione "preferita" di una pagina. Se la pagina A dichiara come canonical la pagina B, Google potrebbe indicizzare la pagina B e ignorare la pagina A — anche se la pagina A ha contenuti unici.

Errori comuni con i canonical

Canonical auto-referenziale errato: un tag canonical che include parametri di query, protocollo errato (http vs https) o incongruenze nello slash finale.
Canonical generati dal CMS: alcuni sistemi puntano pagine paginate, viste filtrate o versioni AMP a target canonical errati.
Canonical cross-domain: se sindichi i contenuti e il canonical del partner di sindacazione punta al proprio URL, Google potrebbe scegliere la loro versione invece della tua.
Segnali in conflitto: il canonical nell'HTML dice una cosa, l'header HTTP ne dice un'altra, e la sitemap elenca un terzo URL. Google deve indovinare — e potrebbe indovinare male.

Come diagnosticare

Usa lo strumento Controllo URL in Search Console. Sotto "Indicizzazione della pagina", mostra il canonical dichiarato dall'utente e il canonical selezionato da Google. Se differiscono, hai un problema.

3. Spreco di crawl budget

Google assegna un crawl budget finito a ogni sito — una combinazione di quanto spesso vuole fare il crawling (domanda) e quanto velocemente il tuo server può gestire le richieste (capacità). Se il tuo sito spreca budget su pagine di basso valore, quelle importanti potrebbero non venire mai scansionate.

Divoratori di budget

Navigazione a faccette: migliaia di combinazioni di filtri che generano pagine quasi duplicate (/shoes?color=red&size=10&brand=nike&sort=price).
Pagine dei risultati di ricerca interna: ogni query crea un nuovo URL che Google potrebbe provare a scansionare.
Calendario o paginazione infiniti: i crawler possono seguire i link "successivo" all'infinito.
ID di sessione negli URL: ogni sessione crea un duplicato di ogni pagina.
Soft 404: pagine che restituiscono un codice di stato 200 ma mostrano contenuti "nessun risultato trovato". Google spreca budget scansionandole e poi deve capire che sono vuote.

Come diagnosticare

In Search Console, il report Statistiche di scansione mostra il totale delle richieste, il tempo di risposta medio e la distribuzione dei codici di risposta. Se la maggior parte degli URL scansionati sono pagine di filtro di basso valore, stai dissanguando il budget. L'analisi dei log del server fornisce informazioni ancora più approfondite — identifica quali percorsi Googlebot colpisce maggiormente.

4. Contenuti scarsi o duplicati

Google potrebbe scansionare una pagina e poi decidere che non vale la pena indicizzarla. Il report Indicizzazione delle pagine la chiama "Scansionata: attualmente non indicizzata" o "Rilevata: attualmente non indicizzata".

Le ragioni includono:

Contenuti scarsi: pagine con pochissimo testo unico — template boilerplate con contenuti minimi, articoli in bozza, pagine di categoria generate automaticamente senza descrizioni.
Contenuti quasi duplicati: più pagine con testo sostanzialmente simile. Google ne sceglie una e scarta il resto.
Bassa qualità o bassa domanda: Google potrebbe semplicemente decidere che la pagina non aggiunge abbastanza valore all'indice per giustificarne l'inclusione.

Come risolvere

Consolida le pagine con contenuti scarsi in pagine meno numerose ma più ricche. Aggiungi contenuti unici e sostanziali alle pagine template. Usa tag canonical per puntare i duplicati alla versione preferita. Se una pagina non ha davvero valore, considera di rimuoverla o di bloccarla nel robots.txt per liberare crawl budget per le pagine che contano.

5. Errori del server (5xx)

Quando Googlebot incontra errori del server 5xx persistenti, riduce la frequenza di crawling e potrebbe eventualmente rimuovere le pagine interessate dall'indice. Un singolo errore 500 durante un'interruzione temporanea va bene — Google riproverà. Ma errori del server ricorrenti segnalano un host inaffidabile, e Google risponde scansionando meno frequentemente e meno in profondità.

Come diagnosticare

Search Console > Statistiche di scansione: cerca picchi nelle risposte 5xx.
Search Console > Report Pagine: verifica le voci "Errore del server (5xx)".
Monitoraggio del server: usa strumenti di uptime-monitoring per intercettare interruzioni e risposte lente prima che lo faccia Googlebot.

6. Catene e loop di redirect

Una catena di redirect si verifica quando l'URL A reindirizza a B, che reindirizza a C, che reindirizza a D. Google segue fino a 10 redirect in una catena, ma ogni passaggio spreca crawl budget e diluisce il link equity. Catene lunghe o loop fanno sì che Google rinunci del tutto.

Scenari comuni

Migrazione HTTP-a-HTTPS sovrapposta a un redirect www-a-non-www: http://www.example.com → https://www.example.com → https://example.com. Sono due passaggi per ogni vecchio link.
Modifiche slug del CMS che creano una catena: il vecchio slug reindirizza a uno slug intermedio che reindirizza a quello corrente.
Loop di redirect: A reindirizza a B e B reindirizza ad A. Googlebot rinuncia immediatamente.

Come risolvere

Appiattisci le catene in modo che ogni redirect punti direttamente alla destinazione finale. Verifica i redirect dopo ogni migrazione. Usa strumenti come Spider.es, Screaming Frog o curl -L da riga di comando per tracciare il percorso completo dei redirect.

7. Pagine orfane

Una pagina orfana è un URL che esiste sul tuo server ma non ha link interni che puntano ad esso. Se nessuna pagina del tuo sito la linka e non è in una sitemap, Google non ha modo di scoprirla — anche se il contenuto è eccellente.

Come diagnosticare

Confronta gli URL nella tua sitemap e nei log del server con gli URL trovati in un crawl completo del sito. Qualsiasi URL che appare nella sitemap ma non nel grafo del crawl è effettivamente orfano. Controlla anche il report "Rilevata: attualmente non indicizzata" di Search Console: se Google ha trovato un URL (magari tramite un link esterno o una vecchia sitemap) ma non ci ritorna, un linking interno debole potrebbe essere la causa.

Come risolvere

Aggiungi link interni contestuali da pagine rilevanti e ben scansionate. Assicurati che le pagine orfane siano incluse nella tua XML sitemap. Verifica la struttura del sito regolarmente — specialmente dopo ridisegni, migrazioni o grandi cancellazioni di contenuti che potrebbero rompere i link esistenti.

8. Bloccata da robots.txt

Se robots.txt blocca Googlebot da un URL, Google non può scansionare la pagina. Potrebbe comunque indicizzare l'URL (se altre pagine lo linkano) ma senza alcun contenuto — risultando in un listing minimo e poco utile. Il report Pagine di Search Console li mostra come "Bloccata da robots.txt".

Questo è uno dei problemi più facili da identificare e risolvere. Esegui un report Spider.es per vedere esattamente quali regole influenzano Googlebot su ogni percorso, poi aggiorna il tuo robots.txt di conseguenza.

Una checklist diagnostica

Quando una pagina non è indicizzata, segui questa sequenza:

Controllo URL in Search Console: Google conosce la pagina? Quale stato riporta?
Verifica noindex: ispeziona i meta tag e gli header di risposta HTTP.
Verifica il canonical: punta a se stesso o altrove?
Verifica robots.txt: l'URL è bloccato? Usa Spider.es per un'analisi per bot.
Verifica il codice di stato HTTP: è 200? Un redirect? Un 404 o 5xx?
Verifica i link interni: puoi raggiungere la pagina seguendo i link dalla homepage?
Verifica la sitemap: l'URL è elencato?
Verifica la qualità dei contenuti: ci sono abbastanza contenuti unici e di valore per giustificare l'indicizzazione?

Considerazioni finali

Che Google ignori le tue pagine raramente è casuale. C'è quasi sempre un segnale tecnico che dice al crawler di saltare, differire o deprioritizzare. La sfida è trovare quel segnale tra le dozzine di possibili cause. Una diagnosi sistematica — partendo da Search Console e integrata con strumenti come Spider.es che mostrano la prospettiva del crawler — trasforma un problema opaco in uno risolvibile. Correggi la causa alla radice, reinvia l'URL e monitora fino a quando Google lo raccoglie.

Torna al blog

spider.es

Panoramica dominio

robots.txt

File aggiuntivi

Meta robots

Header

Perché Google ignora le tue pagine: problemi di indicizzazione risolti

1. La direttiva noindex

Come diagnosticare

2. Canonical che punta altrove

Errori comuni con i canonical

Come diagnosticare

3. Spreco di crawl budget

Divoratori di budget

Come diagnosticare

4. Contenuti scarsi o duplicati

Come risolvere

5. Errori del server (5xx)

Come diagnosticare

6. Catene e loop di redirect

Scenari comuni

Come risolvere

7. Pagine orfane

Come diagnosticare

Come risolvere

8. Bloccata da robots.txt

Una checklist diagnostica

Considerazioni finali