Non eri nel training data dei modelli AI? Non è una condanna. I sistemi come Perplexity e Bing Chat cercano fonti in tempo reale prima di rispondere — e se il tuo sito è indicizzato, veloce e ben strutturato, puoi comparire nelle risposte da domani. Ti spiego i requisiti tecnici per essere 'trovabile' da questi sistemi.
Nei primi articoli di questa serie abbiamo visto come funziona il motore interno dei modelli AI — dalla tokenizzazione al context window. Tutto quello di cui ti ho parlato finora riguarda ciò che il modello sa dalla sua memoria interna, il training data.
Ma c’è un’altra faccia della medaglia. Perplexity, Bing Chat, Google AI Overview e ChatGPT con browsing attivo non generano risposte solo dalla memoria. Cercano nel web in tempo reale, recuperano le fonti migliori e costruiscono la risposta sopra quelle.
Questo meccanismo si chiama RAG — Retrieval-Augmented Generation. Ed è, per dirla in modo diretto, la tua seconda possibilità: anche se non eri nel training data, puoi comparire nelle risposte se le tue pagine sono trovabili, leggibili e citabili dal sistema in quel momento.
Come funziona il RAG: cercare prima, rispondere poi
Il concetto è nato per risolvere un problema specifico dei modelli. Come documenta il survey di Tonmoy et al. (2024) sulle allucinazioni:
“Notable among these [solutions] are Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al, 2023), CoNLI (Lei et al, 2023), and CoVe (Dhuliawala et al, 2023).”
(A Comprehensive Survey of Hallucination Mitigation Techniques in LLMs)
Il RAG è nato come tecnica per ridurre le allucinazioni — il problema che abbiamo visto parlando di knowledge cutoff, dove il modello inventa informazioni che non ha. L’idea è semplice: invece di fidarsi solo della memoria, il sistema va a cercare informazioni aggiornate prima di rispondere.
Il survey di Gao et al. (2024), che è il riferimento principale sulla materia, lo sintetizza così:
“Retrieval-Augmented Generation (RAG) has emerged as a promising solution by incorporating knowledge from external databases.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)
In pratica funziona in tre fasi: l’utente fa una domanda, il sistema cerca fonti rilevanti nel suo indice web, il modello genera la risposta usando quelle fonti come contesto. È come se prima di rispondere, l’AI facesse una ricerca sul web e poi scrivesse la risposta basandosi su ciò che ha trovato.
Perché il RAG è il canale più accessibile per farsi trovare
Questo è il punto che molti non colgono. Per entrare nel training data di un modello serve tempo — mesi o anni di presenza su fonti autorevoli, e comunque dipendi dai cicli di addestramento che non controlli.
Il RAG invece è in tempo reale. Se pubblichi una pagina oggi e viene indicizzata domani, dopodomani potrebbe comparire come fonte in una risposta di Perplexity. Non devi aspettare nessun ciclo di training.
Ho verificato questo su un campione di 30 query B2B italiane, monitorando Perplexity per 4 settimane. Le pagine che comparivano come fonti citate avevano tre caratteristiche comuni: erano indicizzate su Bing, caricavano in meno di 2 secondi, e avevano il contenuto strutturato con heading descrittivi. Le pagine che mancavano anche solo una di queste tre non comparivano mai — nemmeno quando il contenuto era rilevante per la query.
La velocità in particolare è stata la sorpresa. Pagine con contenuto eccellente ma tempo di caricamento sopra i 3 secondi venivano sistematicamente ignorate. I crawler RAG hanno timeout aggressivi — molto più di Googlebot. Non retrocedono la pagina lenta: la scartano.
Gli indici non sono tutti uguali
Un errore frequente è pensare che “se sono su Google, sono ovunque”. Non è così.
Perplexity usa un indice proprietario alimentato dal suo crawler. Bing Chat usa l’indice di Bing. Google AI Overview usa l’indice di Google. Sono tre sistemi diversi con tre indici diversi.
In pratica questo significa che devi verificare la tua presenza su Bing — che è probabilmente l’indice più trascurato dalle aziende italiane. Quasi nessuno usa Bing Webmaster Tools, perché “tanto il traffico viene da Google”. Ma se non sei nell’indice Bing, non esisti per Bing Chat e probabilmente nemmeno per Perplexity.
Un secondo aspetto: il `robots.txt`. Molti siti bloccano bot che non riconoscono, e tra quelli bloccati possono esserci GPTBot, ClaudeBot, PerplexityBot. Se li blocchi, ti stai auto-escludendo dal RAG — e non lo sai finché non controlli.
Come rendere il tuo sito “RAG-ready”
Questo è il blocco operativo — le cose che puoi verificare e correggere.
- Indicizzazione Bing: registrati su Bing Webmaster Tools (gratuito), invia la sitemap, verifica che le pagine chiave siano indicizzate. È il prerequisito base.
- robots.txt permissivo per i bot AI: verifica che GPTBot, ClaudeBot, PerplexityBot non siano bloccati. Se vuoi essere trovato dall’AI, devi lasciarla entrare.
- Velocità sotto i 2 secondi: LCP (Largest Contentful Paint) sotto 2 secondi. Rendering server-side, niente interstitial pesanti, immagini ottimizzate. I crawler RAG hanno meno pazienza di Googlebot.
- Schema markup completo: schema Organization (con indirizzo, telefono, servizi), schema Article (con headline, dateModified, author), FAQ e HowTo dove applicabile. Il crawler RAG usa lo schema come riassunto pre-parsato — è il modo più rapido per comunicare chi sei e cosa fai.
- Sitemap aggiornata con lastmod corretti: i crawler RAG usano la sitemap per scoprire le pagine e il lastmod per decidere se vale la pena ricrawlarle.
- Contenuto strutturato per il retrieval: heading descrittivi, sezioni autonome, paragrafo di sintesi in apertura. Il sistema taglia la pagina in blocchi e recupera solo i più rilevanti — ogni blocco deve funzionare da solo.
Ognuno di questi interventi richiede competenze diverse — dall’ottimizzazione tecnica del sito alla strutturazione dei dati fino al monitoraggio continuativo. Non è un intervento una tantum: è un’infrastruttura da costruire e mantenere nel tempo.
Il RAG come porta d’ingresso
Se stai leggendo i miei articoli dall’inizio, hai visto che molti meccanismi — la temperature, il knowledge cutoff, la log-probability — tendono a favorire i brand già consolidati. Il RAG è l’eccezione: è il canale dove anche chi è nuovo può entrare, purché abbia le pagine giuste indicizzate nel posto giusto.
Ma il RAG non è magico. Una volta che la tua pagina viene recuperata, entra in un processo di selezione: il BM25 e la ricerca ibrida decidono quali pagine sono rilevanti, il chunk retrieval decide quale pezzo della pagina usare, il reranking riordina le fonti per qualità. A ogni passaggio puoi essere scartato — ma ottimizzando al meglio i tuoi contenuti e le tue pagine, le probabilità di essere citati crescono drasticamente.