Il tuo sito è primo su Google da anni — ma su Perplexity non esisti. Non è un problema di contenuto né di autorità: è una riga sbagliata nel robots.txt. PerplexityBot crawla il web per conto suo, indipendentemente da Google, e se il tuo hosting lo blocca tra i bot non autorizzati sei semplicemente invisibile. Ogni risposta Perplexity persa è un buyer che non ti trova. In cinque minuti puoi verificare se sei bloccato e risolverlo. Ti spiego come.
You.com e Phind sono search AI di nicchia: meno utenti ma utenti decisori. Il CEO che usa Phind non è il teenager che usa TikTok. Se sei lì, sei davanti agli occhi giusti.
Lo stesso ragionamento vale, su scala diversa, per Perplexity. Non ha i numeri di Google ma è il motore AI che gli analisti, i giornalisti e i buyer B2B usano per fare ricerca veloce. E qui arriva il problema che voglio raccontarti oggi: Perplexity non legge il web attraverso Google. Ha il suo crawler, si chiama PerplexityBot, e se il tuo sito lo blocca — anche per sbaglio — sei semplicemente invisibile in quelle risposte. Anche se sei primo su Google da anni.
Te lo spiego con un caso che ho visto da vicino in queste settimane.
Una distilleria del Val di Noto che non esisteva per Perplexity
Un mio contatto a Siracusa mi ha presentato una distilleria del Val di Noto: producono amari botanici e liquori di mandorla con ricette di famiglia. Sito fatto bene, scheda Google Business curata, prima posizione su query come “amaro siciliano artigianale” e “distilleria liquori Val di Noto”.
Ho fatto un test rapido. Su ChatGPT ho chiesto “amari artigianali della Sicilia orientale”: citato. Su Perplexity ho chiesto la stessa identica cosa: zero menzioni. Né nel testo, né nelle fonti laterali. Su You.com idem. Solo su Andi è apparso, ma con una scheda generica presa da una directory.
La differenza non era la “qualità del contenuto”. Era una sola riga di codice nel robots.txt aggiunta dall’hosting per ridurre il carico server: bloccava tutti i bot non Google. PerplexityBot incluso.
Cosa fa PerplexityBot e perché ti riguarda
Perplexity costruisce le sue risposte mescolando due cose: l’indice del proprio crawler (PerplexityBot, che gira per il web come faceva Googlebot vent’anni fa) e chiamate in tempo reale a fonti web durante la generazione della risposta. Entrambe le cose hanno bisogno di poter accedere alle tue pagine.
Se PerplexityBot non passa, due conseguenze concrete: la tua pagina non entra nell’indice Perplexity, e quando il modello cerca fonti in tempo reale per costruire una risposta, il tuo dominio risulta non leggibile. Il sistema sceglie chi è leggibile. Anche se sei meno autorevole di te.
Questo è un meccanismo diverso da Google. Su Google, anche se blocchi il crawler, puoi comunque apparire nelle SERP per autorità del dominio (la famosa “pagina indicizzata senza descrizione”). Su Perplexity no: niente accesso, niente citazione. La logica è più rigida proprio perché il modello deve “leggere” il contenuto per riassumerlo, non solo linkarlo.
Te lo dico da deduzione, non da paper: non esiste una pubblicazione accademica che descriva il comportamento esatto di PerplexityBot. Quello che ti racconto viene dall’osservazione sul campo di decine di domini negli ultimi mesi e dalla logica di come funziona un sistema RAG. Da questo segue che la tua azione non parte da una guida ufficiale, parte da un test che fai tu sulla tua casa.
Il filo che unisce tutto: visibilità nelle risposte AI
Negli articoli precedenti di questa serie ti ho parlato di come pensano i motori AI, di E-E-A-T applicato all’AI, di riconoscimento dell’autore come entità. Tutto quel lavoro — la struttura semantica, l’autorevolezza, l’entità — vale zero se il crawler non riesce a leggere la pagina.
L’accessibilità è il livello zero. Sta sotto a tutto il resto. Se manca, la visibilità nelle risposte AI è semplicemente impossibile, non difficile.
Il test che puoi fare in 5 minuti
Apri il tuo robots.txt. Vai su `https://iltuosito.it/robots.txt` e leggilo. Cerca queste tre cose:
- Una riga `User-agent: PerplexityBot` seguita da `Disallow: /` (blocco esplicito)
- Una riga `User-agent: *` seguita da `Disallow: /` (blocco generico che colpisce tutti)
- Regole di esclusione su directory chiave (`/blog/`, `/prodotti/`, `/chi-siamo/`)
Se trovi una di queste tre cose, hai un problema. Per fare un check pulito puoi usare il robots.txt tester di TechnicalSEO: incolli l’URL, scegli lo user agent “PerplexityBot” dal menù e ti dice se la pagina è accessibile o bloccata.
Soglia decisionale binaria: o passa, o non passa. Non ci sono vie di mezzo.
Secondo passo: chiedi al tuo provider hosting se ha regole anti-bot a livello di firewall (Cloudflare, Sucuri, soluzioni proprietarie). Molti hosting italiani per PMI bloccano “user agent sospetti” in modo aggressivo. PerplexityBot è giovane, alcuni firewall lo trattano da scraper. Va aggiunta un’eccezione esplicita.
Il test che ho fatto io
Ho preso 18 siti di PMI italiane del food & beverage di nicchia (cantine, distillerie artigianali, torrefazioni, pastifici secchi). Per ognuno ho fatto due cose: ho controllato il robots.txt e ho lanciato 3 query a tema su Perplexity, ChatGPT, You.com e Phind.
Risultato indicativo, non studio scientifico: 7 siti su 18 avevano qualche forma di blocco che impediva o rallentava PerplexityBot (4 con disallow esplicito, 3 con firewall hosting che rispondeva 403 agli user agent non-browser). Di quei 7, nessuno appariva mai nelle citazioni Perplexity. Degli 11 con accesso libero, 6 apparivano almeno una volta in fonti citate.
Campione piccolo, ma il pattern è netto. E lo stesso pattern l’ho visto anche su You.com e Phind: i bot di nicchia sono i primi a venire bloccati dai firewall degli hosting italiani, perché non sono “famosi” come Googlebot.
L’analisi vera, quella che fai per un cliente serio, richiede strumenti professionali di log analysis sul server e un monitoraggio continuativo delle citazioni AI. Quello che ti propongo qui è un primo passo di check, non un audit.
Gli errori che vedo più spesso
Il blocco ereditato dall’agenzia precedente. Il sito è stato fatto 4 anni fa, l’agenzia aveva messo `Disallow: /` durante lo sviluppo e si è dimenticata di toglierlo per i bot non-Google. Trovo questo pattern almeno in 1 sito su 5.
Il firewall hosting troppo zelante. Hai un hosting condiviso italiano che blocca tutto ciò che non ha una stringa user agent “umana”. PerplexityBot risponde onestamente “PerplexityBot” e viene rifiutato con 403. Il sito è perfetto, l’AI non lo vede.
Il noindex su pagine cardine. Robots.txt ok, ma poi la homepage o le pagine prodotto hanno un meta robots `noindex`. Su Google crea problemi noti, su Perplexity peggiora la situazione perché alcune fonti vengono escluse a priori.
Lo schema robots aggressivo post-attacco DDoS. Hai subito un attacco, l’hosting ha alzato i firewall e non li ha più riabbassati. Sopravvivenza buona, visibilità AI sacrificata in modo invisibile.
Cosa fare concretamente, in ordine
- Scarica il tuo robots.txt e cerca le righe critiche (10 minuti)
- Chiedi all’hosting le regole firewall attive sui bot (1 mail, 24-48h di attesa)
- Se trovi un blocco, aggiungi `User-agent: PerplexityBot` seguito da `Allow: /` come eccezione esplicita
- Aggiungi anche `User-agent: ClaudeBot` e `User-agent: GPTBot` mentre ci sei: stesso ragionamento
- Dopo 2-3 settimane (tempo che il crawler ripassi), rifai le 3 query test su Perplexity, You.com, Phind
- Confronta con i 3-5 competitor che l’AI cita oggi nel tuo settore: se loro compaiono e tu no, il problema è quasi sempre a monte (accessibilità o entità, non contenuto)
Una nota onesta: sbloccare il crawler non ti garantisce di apparire. Non è un fattore magico. Ma è la condizione necessaria. Senza, qualsiasi altro lavoro di autorevolezza o di presenza nel knowledge graph non riesce nemmeno a essere valutato.
Da dove continuare nella serie
L’accessibilità del crawler è il primo gradino. Negli articoli successivi della serie ti racconto cosa cambia tra le piattaforme: come Perplexity sceglie le fonti rispetto a ChatGPT, perché You.com e Phind hanno logiche di citazione diverse, come si presidiano i motori AI di nicchia che — come ti dicevo all’inizio — hanno meno utenti ma più decisori.
Il filo resta sempre quello: uscire nelle risposte AI non è una questione di fortuna o di budget. È una catena di check tecnici e semantici, e il robots.txt è il primo anello. Se è rotto lì, tutto il resto non si tiene.
Quanto è visibile il tuo brand per le AI?
Scoprilo in 30 secondi con il nostro tool gratuito. 11 check automatici, risultati immediati.