Come finisce il tuo brand nel training di ChatGPT? E nei ChatGPT Enterprise dei tuoi clienti? Sono due domande diverse con risposte diverse. Ti spiego come intervenire su entrambe.
La domanda non è “come ottenere visibilità AI”. È “i tuoi clienti enterprise caricano il mio brand nei loro ChatGPT Team/Enterprise”? E prima ancora: il mio brand è già dentro i dati con cui ChatGPT è stato addestrato?
Sono due domande diverse, con risposte diverse. Quella che affronto qui è la seconda, perché se il tuo nome non è mai passato nel corpus di training di GPT, tutto il resto diventa più in salita: ogni volta che un utente chiede a ChatGPT qualcosa del tuo settore, il modello parte da una base di conoscenza in cui tu non esisti.
La buona notizia è che il training data di GPT ha una ricetta documentata. Non è un mistero: Common Crawl per la grossa fetta del web pubblico, libri, Wikipedia, Reddit, GitHub. Conoscere i pesi relativi ti dice dove investire per finire dentro la prossima versione del modello.
Cosa c’è dentro il corpus che ha istruito ChatGPT
Quando dico “training data” intendo il mucchio di testo che OpenAI ha dato in pasto al modello durante il pre-training. Non è la stessa cosa del web live che ChatGPT consulta quando attivi la ricerca: quello è un layer successivo (ne parlo negli articoli della serie sulle piattaforme).
Nel mondo della ricerca sui modelli linguistici, la composizione pubblicamente nota dei corpus di training GPT è una ricetta stabile nel tempo: circa il 60% viene da Common Crawl (lo snapshot del web aperto), circa il 16% da corpora di libri digitalizzati, una quota intorno al 3% da Wikipedia, il resto distribuito fra Reddit (filtrato per qualità), GitHub e fonti minori.
I numeri esatti cambiano tra GPT-3, GPT-4 e versioni successive, e OpenAI non pubblica più le tabelle con la granularità del paper originale del 2020. Ma la proporzione qualitativa regge: il web pubblico pesa più di tutto il resto messo insieme, Wikipedia ha un peso sproporzionato rispetto alla sua dimensione, e Reddit entra nel corpus come proxy di linguaggio naturale “conversazionale”.
Da questo segue una conseguenza operativa che molti imprenditori non hanno messo a fuoco: non tutte le fonti pesano uguale. Un paragrafo su Wikipedia vale, in termini di probabilità di essere ripetuto da ChatGPT, molto più di dieci post sul tuo blog aziendale. Una citazione su Reuters o Il Sole 24 Ore (che entrano nel Common Crawl con autorità alta) vale più di venti menzioni su directory di settore.
Perché questo sta a monte di tutto il resto
Nei miei articoli precedenti ti ho parlato di tokenizzazione e di E-E-A-T per l’AI. Sono due meccaniche che determinano come il modello processa e valuta i contenuti. Ma prima ancora che il modello “valuti” qualcosa, quel qualcosa deve essere stato visto durante il training.
La composizione del corpus è il filtro zero. Se il tuo brand non compare in nessuna delle sorgenti pesanti (Common Crawl con alto link equity, Wikipedia, libri, Reddit), ChatGPT non ha appreso nulla di te durante il pre-training. Potrà trovarti solo se attiva la ricerca live, o se un utente enterprise carica i tuoi documenti nel suo ambiente Team. Che è uno scenario valido, ma è un fallback: la partita si gioca prima.
Vale lo stesso ragionamento che faccio negli articoli su author entity recognition e backlink come citation proxy: il segnale di esistenza nel grafo di conoscenza del modello arriva da dove sei citato, non da quanto scrivi sul tuo sito.
Il test che puoi fare in 10 minuti
Il modo più onesto per capire se il tuo brand è nel corpus di ChatGPT è questo:
- Apri ChatGPT con la ricerca web disattivata (modello base, nessun browsing). Chiedi: “Cosa sai di [nome brand]?”. Se risponde con dettagli specifici e corretti, sei dentro il training data. Se risponde “non ho informazioni” o inventa, non sei (o sei sotto la soglia di richiamo).
- Controlla la tua pagina Wikipedia. Se non c’è, è il primo gap. Se c’è ma è uno stub di tre righe, è il secondo gap. Usa Wikidata per vedere se il brand esiste come entità strutturata.
- Cerca il tuo brand su Google News e filtra per testate nazionali o internazionali (Reuters, ANSA, Il Sole 24 Ore, Corriere). Queste entrano nel Common Crawl con peso alto. Se non compari, non stai seminando dove il modello raccoglie.
- Verifica la presenza su Reddit. Non serve che tu posti: serve che qualcuno ti abbia citato in thread rilevanti del tuo settore (r/italy, r/travel, subreddit verticali).
Soglia binaria: se ChatGPT senza browsing non ti riconosce E non hai pagina Wikipedia E non compari in testate nazionali, il tuo brand è fuori dal corpus. Punto.
Il caso studio: un hotel sciistico di lusso in Valle d’Aosta
Un hotel cinque stelle di Courmayeur (lo chiamo “Hotel Alpha” per riservatezza) mi ha contattato l’anno scorso con un problema specifico: i tour operator B2B internazionali che vendono pacchetti sci di lusso chiedevano a ChatGPT Enterprise “migliori hotel luxury a Courmayeur per clientela UHNW” e il loro nome non usciva mai. Uscivano due competitor storici di Cervinia e uno di Zermatt.
Diagnosi in prima persona: pagina Wikipedia assente, zero citazioni su Reuters/Bloomberg/FT (che coprono il segmento luxury ski), nessuna presenza su Reddit nei thread di r/skiing o r/luxurytravel. Erano invisibili al training data. Avevano investito in un sito multilingua bellissimo e in Google Ads: niente di tutto questo entra nel corpus di GPT.
L’intervento (durato 4 mesi): costruzione di una knowledge base pubblica in formato schede tecniche (PDF indicizzabili + pagine web) con specifiche puntuali su camere, servizi ski-in/ski-out, partnership con guide alpine, dati operativi verificabili. Queste schede sono state messe a disposizione come “dossier operatori” scaricabili e indicizzati, così i tour operator potevano caricarli direttamente nei loro ChatGPT Enterprise come documenti di riferimento. In parallelo: pitching su 2 testate di settore internazionali (una britannica, una svizzera) che il Common Crawl raccoglie, e apertura della voce Wikipedia con fonti indipendenti.
Risultato dopo 3 mesi: ChatGPT senza browsing ancora non li conosceva (logico, il prossimo training cut-off non era arrivato). Ma ChatGPT con browsing attivo citava le loro schede tecniche in 4 query su 10 di test. E soprattutto: i tour operator B2B che usavano ChatGPT Team con i dossier caricati ottenevano risposte dettagliate e corrette sulla struttura. Limiti dichiarati: campione di 10 query, test indicativo e non studio controllato, una sola struttura. Il pattern però è coerente con decine di clienti simili nel turismo di fascia alta.
Gli errori che vedo più spesso
Nel turismo di lusso ma anche in altri settori B2B premium, gli errori sul training data composition si ripetono:
- Puntare tutto sul sito proprietario. Il tuo sito entra nel Common Crawl, certo, ma con peso basso se non ha link da domini autorevoli. Un hotel di Cervinia con sito bellissimo e zero menzioni su testate nazionali è invisibile quanto uno senza sito.
- Ignorare Wikipedia perché “tanto non la leggono i clienti”. I clienti no, il modello sì. E la legge con peso moltiplicato rispetto alla dimensione.
- Affidarsi solo a portali di categoria (Booking, TripAdvisor, portali di destinazione). Vengono crawlati, ma il contenuto è aggregato e non ti identifica come entità distinta.
- Non fornire materiale strutturato ai partner B2B. Nel caso degli hotel sciistici di lusso, i tour operator sono il canale che carica i tuoi documenti nei loro ChatGPT Enterprise. Se non gli dai schede tecniche pulite, caricano quelle dei competitor.
Cosa fare concretamente
- Apri una pagina Wikipedia con fonti indipendenti di terze parti (non autoreferenziali). Se non hai abbastanza copertura mediatica per giustificarla, costruiscila prima: media relations su 2-3 testate di settore con autorità alta.
- Produci documenti pubblici strutturati (PDF, pagine web con dati puntuali) che i tuoi partner B2B possano caricare nei loro ambienti ChatGPT Enterprise. Trattali come knowledge base, non come brochure.
- Fatti citare dove il corpus raccoglie: testate nazionali e internazionali, pubblicazioni accademiche se il tuo settore lo consente, thread Reddit rilevanti (attraverso PR, non spam).
- Verifica la tua presenza con il test senza browsing ogni 6 mesi. Non è un fattore magico e non basta da solo, ma è il check più onesto di “esisto nel mondo di ChatGPT”.
L’analisi vera richiede strumenti professionali e un lavoro coordinato di media relations, ma questo audit entry-level ti dice in mezz’ora se sei dentro o fuori dal corpus.
Il filo: la composizione del training data è la base
Per uscire nelle risposte AI non basta ottimizzare il sito. Il modello ti risponde bene solo se ti ha già visto durante il training, o se qualcuno (utente enterprise, ricerca live) te lo porta davanti al momento. La composizione del corpus GPT ti dice esattamente quali sono le leve: Wikipedia, testate nazionali dentro Common Crawl, Reddit, corpus libri. Nessun shortcut.
Nei prossimi articoli di questa serie entro nel dettaglio di come Claude di Anthropic gestisce il suo training, in cosa differisce Gemini, e come Perplexity aggira il problema attingendo al web live. Se ti interessa capire come ChatGPT riconosce le entità, ti rimando all’articolo su named entity recognition e a quello sull’ingresso nel Google Knowledge Graph, che è cugino stretto del meccanismo che ti ho descritto qui.
Quanto è visibile il tuo brand per le AI?
Scoprilo in 30 secondi con il nostro tool gratuito. 11 check automatici, risultati immediati.