Robots.txt, la grande illusione: perché diavolo le tue pagine bloccate sono ancora su Google?

Anita Innocenti

Le regole del digitale stanno cambiando.

O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.

Contattaci ora →

Il fraintendimento sull’uso di questo protocollo può avere conseguenze significative, portando alla persistenza di contenuti indesiderati nell’indice e, nei casi più gravi, a penalizzazioni manuali da parte di Google.

Molti SEO e imprenditori commettono un errore critico: affidarsi al file robots.txt per deindicizzare contenuti da Google. Questa pratica non solo è inefficace, ma può aggravare problemi come le azioni manuali. Come ribadito da esperti e dalla stessa Google, il robots.txt gestisce solo la scansione, non l'indicizzazione, lasciando le pagine esposte a causa di link esterni.

La grande illusione del robots.txt: perché le tue pagine “bloccate” sono ancora su Google

C’è una di quelle convinzioni dure a morire nel nostro settore, un equivoco che continua a creare problemi a imprenditori e persino a qualche SEO. Parlo della fiducia cieca nel file robots.txt come scudo per nascondere pagine a Google.

La questione è tornata a galla di recente, e Google stessa ha dovuto ribadire un concetto che, a quanto pare, non è ancora chiaro a tutti: bloccare un URL con il robots.txt non significa affatto impedirne l’indicizzazione.

Come ha ribadito John Mueller di Google su Reddit, la distinzione è netta. Il robots.txt è un protocollo di esclusione per i robot, in pratica una serie di indicazioni per i crawler: dice a Googlebot quali porte può aprire e quali no.

È una questione di accesso, di permesso di esplorare.

L’indicizzazione, invece, è l’atto di inserire una pagina nel gigantesco archivio di Google, rendendola potenzialmente visibile nei risultati di ricerca. Sono due processi completamente diversi, e confonderli può portare a conseguenze spiacevoli.

Ma perché questa distinzione, che a prima vista potrebbe sembrare una pignoleria tecnica, è così importante?

Beh, le conseguenze di un errore qui possono essere ben più gravi di un semplice mal di testa.

Quando la teoria si scontra con la realtà: il caso delle azioni manuali

Ecco dove le cose si fanno serie. Immagina di scoprire che sul tuo sito, magari a tua insaputa, sono state pubblicate pagine di bassa qualità o spam, un fenomeno che Google chiama “abuso della reputazione del sito”. Quando il team di Mountain View se ne accorge, può arrivare una bella azione manuale che penalizza la tua visibilità. La reazione istintiva di molti è quella di correre a bloccare queste pagine incriminate tramite il robots.txt, pensando di risolvere il problema.

Un errore fatale.

Lo ha sottolineato molto bene l’esperto SEO Glenn Gabe: usare il robots.txt in questi casi non solo è inutile, ma è controproducente. Google, nella sua documentazione sulle azioni manuali, avverte esplicitamente che le pagine bloccate in questo modo possono rimanere indicizzate e continuare a posizionarsi. Il paradosso è che, per far rimuovere una pagina dall’indice, devi usare il tag “noindex“, ma se blocchi la scansione con il robots.txt, Googlebot non potrà mai vedere quel tag. In pratica, gli stai impedendo di leggere l’ordine che tu stesso gli hai dato.

Questo ci porta dritti al cuore del problema: com’è possibile che una pagina che hai esplicitamente “vietato” a Google finisca comunque nei suoi archivi, visibile a tutti?

I meccanismi dietro le quinte: come Google “scopre” ciò che non dovrebbe vedere

La risposta sta nel modo in cui Google scopre e gestisce le informazioni. Il suo lavoro non si limita a seguire i percorsi che tu gli indichi. Googlebot è instancabile e trova le pagine in molti modi, ad esempio seguendo un link proveniente da un altro sito.

Se un sito esterno linka a una tua pagina “protetta” dal robots.txt, per Google quella pagina esiste. A quel punto, anche se rispetta il tuo divieto di non entrare e non ne legge il contenuto, può decidere di indicizzare comunque l’URL, magari mostrando solo l’indirizzo o un frammento di testo preso dall’anchor text del link esterno.

Come descritto nella stessa documentazione di Google, il robots.txt si basa su un protocollo di esclusione volontario, una specie di accordo tra gentiluomini. I crawler “buoni” come Googlebot lo rispettano, ma non è una barriera invalicabile, né tantomeno un meccanismo di sicurezza.

E soprattutto, non è uno strumento per controllare l’indice.

La comunità SEO è ormai unanime su questo punto: chiunque ti dica che per deindicizzare una pagina basta un “Disallow” nel robots.txt sta commettendo un errore di fondo.

In poche parole, affidarsi al robots.txt per nascondere contenuti sensibili è come chiudere la porta di casa senza mandare la chiave, sperando che nessuno provi a girare la maniglia. Potrebbe funzionare per un po’, ma non è una strategia su cui costruire la sicurezza e la reputazione del tuo business online.

Anita Innocenti

Sono una copywriter appassionata di search marketing. Scrivo testi pensati per farsi trovare, ma soprattutto per farsi scegliere. Le parole sono il mio strumento per trasformare ricerche in risultati.

21 commenti su “Robots.txt, la grande illusione: perché diavolo le tue pagine bloccate sono ancora su Google?”

  1. Questo coro di lamenti per un errore da manuale è la perfetta metafora dell’imprenditoria che delega senza comprendere. L’unica illusione è credere che un fragile strumento possa sostituire la necessaria competenza.

    1. Miriam, più che delega la chiamerei abdicazione. Cedono lo scettro del loro business a chiunque prometta soluzioni rapide, aspettandosi miracoli da un file di testo, per poi lamentarsi se il castello costruito sulla sabbia crolla. L’ingenuità non è una valida giustificazione.

  2. L’affannosa ricerca di scorciatoie tecniche genera questi teatri del dolore, dove l’imprenditore paga il prezzo di una fiducia mal riposta in poche righe di codice. Quando smetteremo di cercare amuleti digitali per problemi che richiedono invece il bisturi?

  3. Vedo più dramma che tecnica in questa discussione; è un errore basilare, non un’epica illusione. Questo fraintendimento è solo un filtro che separa chi studia da chi improvvisa, un meccanismo che, per la mia professione, è una benedizione.

  4. È il nostro battesimo del fuoco digitale, la dura lezione che ogni imprenditore paga per imparare a non fidarsi di soluzioni semplici. La domanda è: quanto ci è costato capirlo?

    1. Carlo Bruno, il costo non si misura in euro. Si conta in notti insonni e fiducia buttata. Abbiamo abboccato a fuffa venduta come Vangelo. Un bel rito di iniziazione, no?

  5. Sara Benedetti

    Ci affidiamo a questo file come se fosse una diga, quando in realtà è un colino che trattiene solo la sabbia più grossa. Il problema non è lo strumento, ma la nostra fretta di trovare scorciatoie che ci impedisce di vederne la reale funzione.

  6. Massimo Martino

    Costruiamo muri di carta contro un’inondazione, poi ci lamentiamo dei piedi bagnati. L’eterna, triste, commedia umana.

    1. Massimo Martino, ci si illude di sussurrare ordini a un gigante sordo. Io, per sicurezza, stacco direttamente la spina quando posso.

  7. Roberta De Rosa

    Questa faccenda mi ricorda certi curriculum gonfiati: un castello di carte che crolla alla prima domanda seria. La colpa non è dello strumento, ma della mano che lo maneggia senza cognizione di causa. Quando lo si capirà?

    1. Simone Ferretti

      Roberta De Rosa, la colpa è di chi vende fumo. E di chi se lo compra senza fare domande. Un mercato che si autoalimenta.

  8. Isabella Sorrentino

    La tenacia con cui ci si aggrappa a questo protocollo come soluzione magica è quasi commovente, una testimonianza di fede contro ogni evidenza tecnica. A volte mi chiedo se il mio scetticismo verso le scorciatoie non sia solo un modo per giustificare la mia fatica.

  9. Chiara De Angelis

    Quante ore perse a spiegare ai clienti che non funziona così. È un mito duro a morire, che costa tempo e denaro.

    1. Angela Ferrari

      Chiara, è come un’eco infinita. Si ripete sempre la stessa roba. Chissà quante altre cose diamo per buone senza un vero perché.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ricevi i migliori aggiornamenti di settore