Hai messo GPTBot o ClaudeBot in disallow nel robots.txt per proteggere i contenuti dal training? È una scelta legittima, ma ha un costo preciso: quei sistemi non potranno nemmeno citarti nelle risposte in tempo reale. Bloccare un bot AI è come bloccare Googlebot e aspettarsi di comparire su Google — la logica è identica. Non è detto che tu debba aprire tutto, ma devi sapere cosa stai scegliendo. In dieci minuti verifichi la situazione attuale e capisci quali bot abilitare sulle pagine strategiche. Ti spiego come configurare il robots.txt per essere visibile dove conta senza perdere il controllo del tuo contenuto.
C’e una pagina sul tuo sito che probabilmente non hai mai aperto. Si chiama robots.txt, sta nella root del dominio, e contiene istruzioni per i crawler — i software che scansionano il web per indicizzare contenuti. Per anni hai pensato a Googlebot. Forse hai anche ottimizzato quel file per controllare cosa Google potesse vedere e cosa no.
Ma oggi il tuo sito non viene visitato solo da Google. GPTBot, ClaudeBot, PerplexityBot, Google-Extended — sono i crawler dei motori AI che alimentano le risposte in tempo reale. E se il tuo robots.txt li blocca, stai dicendo a ChatGPT, Claude, Perplexity e Gemini: “non leggere le mie pagine”. Il risultato e semplice: non esisti per loro.
Non e un’ipotesi. E meccanica.
Il file che decide se l’AI può leggerti
Il robots.txt funziona con una logica binaria: permetti o blocchi. Quando un crawler AI arriva sul tuo sito, la prima cosa che fa e leggere quel file. Se trova una riga come `User-agent: GPTBot / Disallow: /`, non va oltre. Non prova a interpretare, non fa eccezioni. Torna indietro e il tuo contenuto non entra nel suo indice.
Il problema e che molti siti hanno regole di blocco inserite anni fa per bot generici, oppure copiate da template che bloccano tutto tranne Googlebot e Bingbot. Nessuno le ha aggiornate quando sono arrivati i crawler AI, perché nessuno ci ha pensato. Ma il danno e già in corso.
Gao et al. nel 2024, nel survey di riferimento sul RAG, descrivono cosa significa ottimizzare l’indicizzazione per i sistemi di retrieval:
“The goal of optimizing indexing is to enhance the quality of the content being indexed. This involves strategies: enhancing data granularity, optimizing index structures, adding metadata, alignment optimization, and mixed retrieval.” — Gao et al., 2024
Cinque strategie. Ma nessuna di queste può funzionare se il crawler non riesce nemmeno ad accedere al contenuto. L’ottimizzazione dell’indice presuppone che il contenuto sia raggiungibile. E se il tuo robots.txt dice “non entrare”, il contenuto non esiste per quel sistema — indipendentemente da quanto sia ben strutturato, aggiornato o autorevole.
Non tutti i crawler AI sono uguali
Ogni motore AI ha il suo bot, e ognuno rispetta il robots.txt in modo indipendente. Ecco i principali:
- GPTBot — il crawler di OpenAI. Se lo blocchi, le tue pagine non vengono usate da ChatGPT per risposte con browsing attivo.
- Google-Extended — il crawler di Google per l’addestramento AI e i riassunti. Bloccare questo non impedisce l’indicizzazione su Google Search, ma esclude i tuoi contenuti dalle risposte di Gemini e AI Overview.
- ClaudeBot — il crawler di Anthropic. Se lo blocchi, i tuoi contenuti non vengono considerati dal modello Claude.
- PerplexityBot — il crawler di Perplexity. Il blocco qui e particolarmente penalizzante perché Perplexity e il motore AI che cita di più le fonti in modo esplicito.
La logica e semplice ma non intuitiva: bloccare un singolo bot non ti rende invisibile ovunque, ma ti rende invisibile su quel sistema specifico. E se blocchi GPTBot e PerplexityBot insieme, hai chiuso la porta ai due canali che più di tutti stanno cambiando il modo in cui le persone cercano informazioni.
Il paradosso: siti ben posizionati su Google, invisibili per l’AI
Ho verificato questa situazione su un campione di 35 siti B2B italiani. Il 40% aveva almeno un bot AI bloccato nel robots.txt — quasi sempre senza che il proprietario ne fosse consapevole. Nella maggior parte dei casi, il blocco era un residuo di configurazioni vecchie o plugin di sicurezza che aggiungono regole restrittive di default.
Il dato che colpisce: questi siti non avevano problemi su Google. Alcuni erano in prima pagina per le loro keyword principali. Ma quando testavo le stesse query su Perplexity o ChatGPT con browsing, non comparivano mai. Zero citazioni, zero visibilità. Posizionati su Google, fantasmi per l’AI.
Aggarwal et al. nel 2025 sottolineano un principio che e diventato la base del mio lavoro:
“We provide actionable guidance for practitioners, emphasizing the critical need to: (1) engineer content for machine scannability and justification.” — Aggarwal et al., 2025
“Machine scannability” — la scansionabilita da parte delle macchine. E la parola chiave. Se il contenuto non e scansionabile dal bot AI, ogni altra ottimizzazione e inutile. Puoi avere il markup semantico perfetto, i segnali di freshness aggiornati, la page experience impeccabile — ma se il crawler non può entrare, non legge niente di tutto questo.
Crawlability e RAG: perché il blocco e fatale
Ne ho parlato nell’articolo sul RAG: i sistemi come Perplexity e ChatGPT con browsing cercano fonti in tempo reale prima di generare una risposta. Questo significa che il tuo contenuto viene valutato nel momento esatto della query. Se il bot non può accedervi in quel momento, semplicemente non vieni considerato.
Ma la crawlability non si ferma al robots.txt. Volpini et al. nel 2026 documentano un aspetto che aggiunge un livello di complessità:
“Enhanced pages transform opaque entity URIs into readable, structured information by resolving linked relationships and presenting them as human-readable content.” — Volpini et al., 2026
Le pagine che trasformano dati opachi in contenuto leggibile e strutturato vengono processate meglio dai sistemi AI. Da questo segue una deduzione: non basta lasciare entrare il bot — devi anche assicurarti che cio che trova sia leggibile. Una pagina che richiede JavaScript pesante per renderizzare il contenuto, o che carica il testo principale via AJAX dopo il caricamento iniziale, potrebbe risultare vuota per un crawler AI con timeout aggressivi.
Il blocco nel robots.txt e la forma più esplicita di auto-esclusione. Ma il rendering lento, i paywall, gli interstitial e le protezioni anti-bot aggressive sono forme implicite dello stesso problema.
Cosa verificare adesso
Apri il tuo robots.txt — lo trovi su `tuodominio.it/robots.txt`. Poi cerca queste righe:
- `User-agent: GPTBot` seguito da `Disallow: /`
- `User-agent: ClaudeBot` seguito da `Disallow: /`
- `User-agent: PerplexityBot` seguito da `Disallow: /`
- `User-agent: Google-Extended` seguito da `Disallow: /`
Se trovi anche una sola di queste combinazioni, stai bloccando quel sistema AI.
La correzione e semplice: rimuovi le righe di Disallow per i bot AI che vuoi autorizzare. Se vuoi bloccare solo alcune sezioni (ad esempio l’area riservata), puoi farlo con regole specifiche per path. Ma le pagine che vuoi che l’AI trovi e citi devono essere accessibili.
Poi verifica tre cose aggiuntive:
- Rendering server-side: il contenuto principale della pagina e visibile nell’HTML di origine, senza bisogno di JavaScript? Apri il sorgente della pagina — se il body e vuoto e tutto viene iniettato da script, i crawler AI vedono una pagina bianca.
- Nessun interstitial bloccante: cookie banner a schermo intero, popup di iscrizione, paywall — tutto cio che impedisce l’accesso al contenuto prima dell’interazione umana e un muro per i bot.
- Header HTTP: verifica che il server non restituisca un header `X-Robots-Tag: noindex` per i bot AI. Alcuni plugin di sicurezza aggiungono questi header senza che tu lo sappia.
Questi sono check di superficie — ti danno un primo quadro della situazione. Ma una verifica completa richiede di testare la crawlability da ogni bot AI specifico, analizzare i log del server per vedere quali bot arrivano e cosa ricevono, e monitorare nel tempo che le configurazioni non cambino con gli aggiornamenti dei plugin.
La crawlability come prerequisito di tutto il resto
L’HTTPS garantisce che il canale sia sicuro. La page experience garantisce che la pagina sia veloce. Il markup semantico garantisce che il contenuto sia strutturato. I segnali di freshness garantiscono che sia aggiornato.
Ma nessuno di questi segnali conta se il crawler non può nemmeno accedere alla pagina. La crawlability e il livello zero — il prerequisito senza il quale tutto il resto non esiste. E la buona notizia e che sistemarlo e spesso questione di minuti: apri un file, rimuovi una riga, salva. La cattiva notizia e che se non lo fai, potresti restare invisibile senza nemmeno sapere perché.