Il tuo sito è ottimizzato, i contenuti sono buoni, ma l'AI non sembra conoscerti? Prima di cercare la colpa nei tuoi testi, controlla dove guarda il modello. I dataset di training sovra-rappresentano tech, finanza e media generalisti — se il tuo settore è sotto-rappresentato, il modello ti conosce poco a prescindere dalla qualità di ciò che scrivi. La diagnosi richiede meno di un'ora, e la strategia correttiva si applica pubblicando dove il training data guarda già. Ti spiego come verificarlo e dove muoverti.
Hai investito anni nel tuo sito. Contenuti originali, servizio impeccabile, clienti soddisfatti. Poi chiedi a un motore AI di consigliare un fornitore nel tuo settore e il tuo nome non compare. Al suo posto, competitor che conosci bene e che sai essere meno preparati di te.
La reazione istintiva è pensare di dover “ottimizzare” qualcosa. Ma il problema potrebbe essere a monte, in un posto dove nessuna ottimizzazione del sito può arrivare: i dati su cui il modello è stato addestrato.
Il training non copre il mondo in modo uniforme
Ogni modello di linguaggio impara da un dataset. E ogni dataset è una fotografia parziale del web. Common Crawl, The Pile, RedPajama: sono nomi che forse non hai mai sentito, ma sono le fondamenta su cui si regge quello che l’AI “sa” del mondo.
Il punto è che queste raccolte non sono bilanciate. Certi settori, certe lingue, certi tipi di siti vengono catturati in modo massiccio. Altri restano in ombra. Nel survey di Zhao et al. del 2024, uno dei più completi sulla costruzione degli LLM, il concetto viene espresso in modo netto:
“Addressing Imbalances: Balancing the distribution of classes or categories in the dataset to avoid biases and ensure fair representation.”
(A Survey of Large Language Models)
Se il bilanciamento è un problema riconosciuto dalla ricerca, da questo segue che il tuo settore potrebbe trovarsi dalla parte sbagliata della bilancia. Non per colpa tua. Per come sono stati costruiti i dataset.
Cosa finisce nel training e cosa resta fuori
Per darti un’idea concreta: The Pile, uno dei dataset aperti più usati nella ricerca, pubblica la lista delle sue fonti. Ci trovi Wikipedia, StackOverflow, GitHub, PubMed, articoli accademici, libri digitalizzati, forum tecnici. Mancano quasi del tutto interi segmenti dell’economia: artigianato, servizi locali, PMI manifatturiere, professionisti sanitari, consulenti.
Non è che questi settori producano meno contenuti di qualità. È che i contenuti che producono non finiscono nei canali che i dataset raccolgono. Un idraulico di Brescia con trent’anni di esperienza e un sito ben fatto non ha pubblicazioni su PubMed, non scrive su GitHub, non ha una voce Wikipedia. Per il dataset, semplicemente non esiste.
E attenzione, non vale solo per l’artigianato. Studi legali, cliniche veterinarie, aziende agricole, studi di architettura. Interi pezzi di economia reale che generano valore ogni giorno ma che nel training pesano una frazione di quello che pesa un repository open source su GitHub.
E qui la cosa diventa ancora più interessante. Zhao et al. nello stesso survey documentano un principio che cambia la prospettiva:
“Properly filtered and deduplicated web data alone can lead to powerful models.”
(A Survey of Large Language Models)
Tradotto: la qualità del dato conta più della quantità. Ma il filtraggio e la deduplicazione lavorano su quello che c’è nel dataset. Se il tuo settore non c’è, non c’è nulla da filtrare, nulla da valorizzare. Non è un problema di qualità del tuo sito. È un problema di presenza nella materia prima.
Le conseguenze non si fermano al training
Il bias nel training si propaga. Quando un modello conosce poco un settore, le risposte su quel settore sono meno accurate, meno dettagliate, meno sicure. Il survey di Zhang et al. del 2025 sull’allineamento dei modelli lo dice in modo diretto:
“They may also produce toxic, offensive, or harmful content due to biases present in the training data.”
(A Survey on Progress in LLM Alignment)
Ora, non sto dicendo che l’AI produca contenuti “tossici” sul tuo settore. Ma il meccanismo è lo stesso: quando i dati di training sono sbilanciati, le risposte ereditano quello squilibrio. Da questo segue che se il modello ha visto mille articoli su tool di marketing digitale e tre sul tuo settore di nicchia, quando qualcuno chiede “chi è il migliore in X”, l’AI risponde con quello che conosce meglio. E quello che conosce meglio è quello che era nel training.
Per un imprenditore questo è un circolo vizioso silenzioso. L’AI non ti cita, quindi non generi traffico da AI, quindi non generi nuove menzioni, quindi nel prossimo aggiornamento del training sei ancora meno presente.
Come capire se il tuo settore è sotto-rappresentato
Questo è un check di superficie, un primo passo per capire dove stai. Non sostituisce un’analisi completa, ma ti dà una direzione.
Fai queste tre cose:
Cerca il tuo settore nei dataset pubblici. The Pile documenta le sue fonti. RedPajama ha una composizione nota. Se il tuo settore non compare tra le fonti principali, hai una risposta parziale ma significativa.
Testa le risposte AI sul tuo settore. Fai 10-15 query specifiche su più motori AI, del tipo “migliori fornitori di [tuo settore] in [tua zona]”. Non guardare una singola risposta: guarda il pattern su più query riformulate. Se le risposte sono vaghe, generiche, o citano sempre gli stessi 2-3 nomi, il settore è probabilmente sotto-rappresentato.
Confronta con settori sovra-rappresentati. Fai le stesse query per settori notoriamente presenti nei dataset (tech, finanza, software). La differenza nella qualità e specificità delle risposte ti mostra il gap.
Se il quadro conferma una sotto-rappresentazione, non è una sentenza definitiva. È la mappa di partenza per una strategia.
Compensare il bias: pubblicare dove il training guarda
Se il tuo sito da solo non basta perché il dataset non lo ha mai raccolto, la strada è portare il tuo nome e la tua competenza dove i dataset guardano. Non è un trucco. È costruire presenza nei canali che contano per i modelli futuri, e che contano già oggi per i sistemi che usano il RAG per cercare informazioni in tempo reale.
Alcune strade concrete:
Media del tuo settore. Un articolo su una testata di settore con il tuo nome associato alla tua specializzazione ha un peso enorme. I media nazionali e di settore sono tra le fonti principali di tutti i grandi dataset. Se pubblichi lì, entri nel circuito.
Wikipedia come fonte citata. Non sto parlando di creare una pagina su di te: quella richiede notabilità. Ma puoi essere citato come fonte in voci esistenti del tuo settore. Una citazione in una voce Wikipedia è uno dei segnali più forti nei dataset di training, perché Wikipedia è presente in tutti.
Piattaforme con alta presenza nei dataset. Reddit, StackOverflow, Quora, forum tecnici di settore. Se hai competenza, condividila dove i dataset raccolgono. Un commento tecnico dettagliato su Reddit con il tuo nome ha più peso, per il training, di cento post sul tuo blog che nessun dataset ha mai indicizzato.
Directory di settore autorevoli. Non le directory generiche che vendono link. Le directory specifiche del tuo settore, quelle che i dataset raccolgono perché hanno autorità editoriale.
Il tuo Google Business Profile. Sembra banale, ma è un dato strutturato che i crawler raccolgono sistematicamente. Un profilo completo, con recensioni, categoria corretta e descrizione coerente con il tuo posizionamento, è un segnale che entra nel circuito.
Tutto questo si collega a quello che ho approfondito nell’articolo sulla credibilità E-E-A-T: i segnali di autorità non vivono solo sul tuo sito, ma nella rete di menzioni esterne che confermano chi sei.
Il bias del training e la catena della visibilità
Questo meccanismo si intreccia con altri che determinano la tua visibilità AI. Il consenso tra fonti amplifica chi è già presente in più punti del dataset. La reputazione cross-platform pesa di più quando le piattaforme su cui sei presente sono quelle che il training ha catturato. E la temporal authority premia chi ha costruito presenza nel tempo, non chi arriva all’ultimo momento.
Nessuno di questi meccanismi funziona se alla base manca la materia prima: la tua presenza nei dati da cui il modello impara. Il bias del training è il pavimento su cui tutto il resto si appoggia. Se quel pavimento è vuoto, non importa quanto sia solida la struttura che ci costruisci sopra.
La buona notizia è che il training non è statico. I modelli vengono aggiornati, i dataset vengono rinfrescati, e i sistemi RAG cercano informazioni in tempo reale. Ogni menzione che costruisci oggi su una fonte autorevole è un mattone in più per la prossima versione del modello, e un segnale immediato per i motori che già usano la ricerca in tempo reale.
Non puoi riscrivere il training passato. Ma puoi costruire la presenza che il training futuro troverà.