Training Data Lifecycle: perché le correzioni al tuo sito non arrivano subito nell’AI

Hai aggiornato il sito, corretto i dati, cambiato sede — ma ChatGPT ti racconta ancora la versione vecchia. Non è un bug. È il ciclo di vita dei dati di training che lavora sui suoi tempi: 3, 6, anche 12 mesi. Non è colpa tua e non è colpa del modello: è la fisica del sistema. Ma c'è una distinzione che cambia la strategia — RAG e pre-training non funzionano uguale. Ti spiego i tre canali con cui una correzione arriva nell'AI, con quali tempi, e come pianificare gli aggiornamenti in modo che non ti ritrovis a aspettare invano.

Ricordo quando nel 2015 Google impiegava 3-6 mesi per assorbire una modifica sostanziale al sito: cambiavi struttura, riscrivevi intestazioni, aggiornavi i dati dell’azienda, e il motore se ne accorgeva con calma. Con l’AI oggi è una dinamica simile, ma lavori con cicli di retraining diversi per ogni modello, e la finestra di recepimento può essere anche più lunga. Ti spiego come ragionare sui tempi, così non ti stupisci se ChatGPT o Gemini raccontano ancora la versione vecchia della tua azienda dopo che hai corretto il sito.

Il caso da cui parto è reale: un’azienda agricola biologica di Palermo, olio extravergine, agrumi IGP e vino naturale siciliano. Tre anni fa aveva cambiato sede e nome commerciale, aggiornando subito il sito. Eppure nell’autunno 2025 chiedendo a Perplexity “produttori di olio biologico siciliani premiati” uscivano ancora il vecchio nome e il vecchio indirizzo. Non è un bug. È il ciclo di vita dei dati di training che lavora sui suoi tempi.

Cosa vuol dire “ciclo di vita dei dati di training” per un modello AI

Un modello linguistico non è un database che si aggiorna ogni notte. È una fotografia di conoscenza scattata a una certa data, chiamata knowledge cutoff, e da lì in avanti quella fotografia si aggiorna solo in due modi: con un retraining completo (costosissimo) oppure con un continued pretraining sopra il checkpoint esistente.

Nel mondo della ricerca, Parmar e colleghi di NVIDIA hanno spiegato bene perché oggi quasi nessuno sceglie la prima strada.

“Due to the large computational cost that pretraining of modern LMs incurs, frequent complete retraining is intractable.”Parmar et al., 2024

Tradotto: il costo computazionale dell’addestrare da zero i modelli linguistici moderni è talmente alto che fare retraining completo e frequente è praticamente impraticabile. Ecco perché i laboratori riusano i modelli già esistenti aggiungendoci sopra fasi di addestramento mirate.

Per te imprenditore questo significa una cosa semplice: quando correggi un dato sul tuo sito, quel dato non entra nel cervello di ChatGPT la settimana dopo. Entra quando il laboratorio che lo produce decide di fare una sessione di aggiornamento del modello. Può succedere tra 3 mesi. Può succedere tra 12. Dipende dal modello.

Perché i laboratori riusano i modelli invece di rifarli da zero

Lo stesso paper chiarisce la logica economica che governa il mercato oggi.

“This makes the reuse of already developed LMs via continued pretraining an attractive proposition.”Parmar et al., 2024

In italiano: riusare modelli linguistici già sviluppati attraverso il continued pretraining è un’opzione vantaggiosa. La conseguenza operativa per il tuo business è che la conoscenza di un modello si stratifica: alcune parti vengono rinfrescate, altre restano congelate a uno stato precedente per molti cicli.

Questo collega direttamente il tema al modo in cui ti ho già spiegato il funzionamento dello spazio vettoriale degli embedding: una volta che il tuo brand è mappato nello spazio semantico del modello con certe caratteristiche, per spostarlo servono nuovi dati ripetuti su scala, non un singolo update del tuo sito.

Le tre strade con cui una correzione arriva nell’AI

Per un imprenditore serve una mappa mentale semplice. I dati che correggi oggi arrivano nell’AI attraverso tre canali, con tempi molto diversi.

Canale RAG (tempo reale o quasi): quando un motore come Perplexity, Google AI Overviews o la ricerca web di ChatGPT costruisce la risposta pescando pagine in quel momento, la tua correzione viene letta subito. Qui lavori su sito, schema markup, Google Business Profile, Wikidata.

Canale indice aggiornato periodicamente (settimane o mesi): alcuni sistemi usano indici semantici rigenerati ogni tot tempo. La tua correzione entra quando l’indice viene ricostruito.

Canale training del modello (mesi o anni): la conoscenza interna al modello cambia solo nelle sessioni di continued pretraining. È il canale più lento e meno prevedibile.

Per l’azienda agricola siciliana di cui parlavo, la soluzione è stata lavorare in parallelo su tutti e tre. Il sito è stato risistemato con schema Organization, Wikidata aggiornato con il nuovo nome, la nuova sede e i riferimenti ai premi di settore, il Google Business Profile rifatto da zero. Nel giro di tre settimane Perplexity citava già la versione corretta. Google AI Overviews ci ha messo due mesi. ChatGPT senza browsing, su domanda diretta, per diversi mesi ha continuato a restituire il vecchio nome.

Il test che puoi fare in dieci minuti sul tuo brand

Non serve un tool professionale per capire in quale stato sei. Fai questo percorso, nell’ordine.

  • Apri Rich Results Test di Google, incolla l’URL della tua homepage e cerca “Organization”: se il nome, l’indirizzo e il sito risultano corretti, il canale RAG ha di che lavorare. Se non escono, hai un problema a monte.
  • Vai su Wikidata e cerca il nome della tua azienda. Se esiste una scheda, verifica che dati come indirizzo, settore e sito siano aggiornati. Se non esiste, chiedi a un professionista di crearla: è una delle fonti strutturate più pescate dai modelli.
  • Apri Perplexity e poi ChatGPT con ricerca web, e fai tre query sul tuo settore: una generica (“produttori di X in Y”), una specifica con categoria (“migliori Z biologici in Italia”), una comparativa (“differenze tra A e B”). Guarda quali fonti vengono citate e con quali dati.

Questo è un check entry level, non sostituisce l’analisi vera, che richiede strumenti professionali e un lavoro più profondo sulla mappatura dell’entità del brand. Però ti dà in dieci minuti una foto onesta di dove sei.

Il ragionamento dietro i tempi di recepimento

Non ho eseguito un test controllato sulle finestre di retraining dei laboratori, e sarebbe disonesto inventarmi percentuali. Ragiono su quello che la ricerca documenta e su quello che osservo ripetutamente sui clienti.

Parmar e colleghi nel paper già citato osservano che applicando tecniche di continued pretraining mirato su un modello da 15 miliardi di parametri hanno ottenuto un miglioramento medio dell’accuratezza del 9% rispetto al baseline.

“When applying these findings within a continued pretraining run on top of a well-trained 15B parameter model, we show an improvement of 9% in average model accuracy compared to the baseline of continued training on the pretraining set.”Parmar et al., 2024

Il punto pratico non è il 9%. È che i laboratori hanno un incentivo economico forte a rinfrescare i modelli con continued pretraining periodici, non con retraining da zero. Da questo segue che le finestre tipiche di aggiornamento per i modelli commerciali oscillano fra i 3 e i 12 mesi: la tua correzione viaggia su quel binario, non sul binario “online tra due giorni”. Tradotto: se nel 2026 vuoi che l’AI racconti correttamente il tuo brand, le correzioni strutturali vanno fatte nell’estate-autunno 2025, non il mese prima.

Gli errori che vedo più spesso quando si lavora sul ciclo di vita

Ci sono quattro pattern che si ripetono con fastidiosa regolarità nelle aziende che mi chiamano dopo aver “sistemato tutto”.

Aggiornare solo il sito e aspettare. Il sito aiuta il canale RAG, non tocca il training. Senza Wikidata, schema Organization completo e profili strutturati esterni, stai lavorando su un quarto del problema.

Cambiare nome senza piano di transizione. Quando un’azienda cambia brand name, per 6-12 mesi l’AI racconta il nome vecchio. Serve una pagina di continuità, una nota pubblica e una menzione in fonti autorevoli di settore.

Aspettarsi che una modifica sposti l’ago. I modelli imparano per ripetizione su scala: una fonte corretta, se tutte le altre raccontano la versione vecchia, non sposta nulla. Serve coerenza su tutti i punti di contatto pubblici.

Non monitorare cosa l’AI dice. Senza un giro periodico di query sul tuo brand, scopri il problema quando è tardi. Una cadenza mensile su 5-10 query chiave è il minimo sindacale.

Cosa fare concretamente nei prossimi 30 giorni

Se stai pensando a una correzione importante sul tuo brand, o se l’AI sta già raccontando qualcosa di datato su di te, muoviti così.

  • Fai l’inventario delle fonti strutturate che parlano di te: sito, Google Business Profile, Wikidata, elenchi di settore, albi professionali. Correggi tutto in un’unica finestra temporale, non a spizzichi.
  • Costruisci una pagina sul sito che racconti in chiaro il “prima e dopo” del cambiamento (nuova sede, nuovo nome, nuova gamma): serve come ancora per i sistemi RAG e come base per le citazioni esterne.
  • Cerca 3-5 fonti autorevoli del tuo settore (riviste di nicchia, associazioni di categoria, registri premi) e verifica che abbiano la versione aggiornata. Queste sono le fonti che i modelli pescano con peso alto.
  • Pianifica un check trimestrale su ChatGPT, Perplexity e Gemini con le stesse 10 query: così vedi il ritmo con cui ogni modello recepisce.

Confronta sempre con i 3-5 competitor che l’AI cita oggi nel tuo settore: se loro compaiono con dati aggiornati e tu no, il gap non è sulla qualità, è sul lavoro di fonti strutturate.

Il filo con la visibilità nelle risposte AI

Il ciclo di vita dei dati di training è il motivo per cui la visibilità nelle risposte AI si costruisce in anticipo, non in reazione. Quello che ti ho raccontato negli articoli precedenti – dalla riconciliazione del knowledge graph all’associazione geografica dell’entità – lavora proprio sul fatto che i modelli imparano lentamente e dimenticano lentamente. Una volta dentro, ci resti a lungo. Ma per entrarci devi pensare in mesi, non in settimane.

Nei prossimi articoli approfondiamo il monitoraggio continuo dell’entità e la gestione delle variazioni di dominio, le due facce operative di questo tema.

Quanto è visibile il tuo brand per le AI?

Scoprilo in 30 secondi con il nostro tool gratuito. 11 check automatici, risultati immediati.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Quanto è visibile il tuo brand per le AI? Analizza il tuo brand