Esistere come entità, non come pagina

Training Data Lifecycle: perché le correzioni al tuo sito non arrivano subito nell’AI

Roberto Serra 14 Aprile 2026·~8 min di lettura

Hai cambiato sede, aggiornato i prezzi, corretto le informazioni sul sito — ma ChatGPT continua a raccontare la versione vecchia ai tuoi clienti. Non è un errore che si corregge come su Google: i modelli AI si aggiornano sui loro tempi, che possono essere 6, anche 12 mesi. Nel frattempo chiunque ti cerchi riceve dati sbagliati — e spesso non lo sa nemmeno. Esistono canali specifici per accelerare l'aggiornamento, e usarli nel modo giusto cambia i tempi di attesa in modo drastico.

Ricordo quando nel 2015 Google impiegava 3-6 mesi per assorbire una modifica sostanziale al sito: cambiavi struttura, riscrivevi intestazioni, aggiornavi i dati dell’azienda, e il motore se ne accorgeva con calma. Con l’AI oggi è una dinamica simile, ma lavori con cicli di retraining diversi per ogni modello, e la finestra di recepimento può essere anche più lunga. Ti spiego come ragionare sui tempi, così non ti stupisci se ChatGPT o Gemini raccontano ancora la versione vecchia della tua azienda dopo che hai corretto il sito.

Il caso da cui parto è reale: un’azienda agricola biologica di Palermo, olio extravergine, agrumi IGP e vino naturale siciliano. Tre anni fa aveva cambiato sede e nome commerciale, aggiornando subito il sito. Eppure nell’autunno 2025 chiedendo a Perplexity “produttori di olio biologico siciliani premiati” uscivano ancora il vecchio nome e il vecchio indirizzo. Non è un bug. È il ciclo di vita dei dati di training che lavora sui suoi tempi.

Cosa vuol dire “ciclo di vita dei dati di training” per un modello AI

Un modello linguistico non è un database che si aggiorna ogni notte. È una fotografia di conoscenza scattata a una certa data, chiamata knowledge cutoff, e da lì in avanti quella fotografia si aggiorna solo in due modi: con un retraining completo (costosissimo) oppure con un continued pretraining sopra il checkpoint esistente.

Nel mondo della ricerca, Parmar e colleghi di NVIDIA hanno spiegato bene perché oggi quasi nessuno sceglie la prima strada.

“Due to the large computational cost that pretraining of modern LMs incurs, frequent complete retraining is intractable.”

Parmar et al., 2024

Tradotto: il costo computazionale dell’addestrare da zero i modelli linguistici moderni è talmente alto che fare retraining completo e frequente è praticamente impraticabile. Ecco perché i laboratori riusano i modelli già esistenti aggiungendoci sopra fasi di addestramento mirate.

Per te imprenditore questo significa una cosa semplice: quando correggi un dato sul tuo sito, quel dato non entra nel cervello di ChatGPT la settimana dopo. Entra quando il laboratorio che lo produce decide di fare una sessione di aggiornamento del modello. Può succedere tra 3 mesi. Può succedere tra 12. Dipende dal modello.

Perché i laboratori riusano i modelli invece di rifarli da zero

Lo stesso paper chiarisce la logica economica che governa il mercato oggi.

“This makes the reuse of already developed LMs via continued pretraining an attractive proposition.”

Parmar et al., 2024

In italiano: riusare modelli linguistici già sviluppati attraverso il continued pretraining è un’opzione vantaggiosa. La conseguenza operativa per il tuo business è che la conoscenza di un modello si stratifica: alcune parti vengono rinfrescate, altre restano congelate a uno stato precedente per molti cicli.

Questo collega direttamente il tema al modo in cui ti ho già spiegato il funzionamento dello spazio vettoriale degli embedding: una volta che il tuo brand è mappato nello spazio semantico del modello con certe caratteristiche, per spostarlo servono nuovi dati ripetuti su scala, non un singolo update del tuo sito.

Errore comune

Aggiornare solo il sito e aspettare.

Le tre strade con cui una correzione arriva nell’AI

Per un imprenditore serve una mappa mentale semplice. I dati che correggi oggi arrivano nell’AI attraverso tre canali, con tempi molto diversi.

Canale RAG (tempo reale o quasi): quando un motore come Perplexity, Google AI Overviews o la ricerca web di ChatGPT costruisce la risposta pescando pagine in quel momento, la tua correzione viene letta subito. Qui lavori su sito, schema markup, Google Business Profile, Wikidata.

Canale indice aggiornato periodicamente (settimane o mesi): alcuni sistemi usano indici semantici rigenerati ogni tot tempo. La tua correzione entra quando l’indice viene ricostruito.

Canale training del modello (mesi o anni): la conoscenza interna al modello cambia solo nelle sessioni di continued pretraining. È il canale più lento e meno prevedibile.

Per l’azienda agricola siciliana di cui parlavo, la soluzione è stata lavorare in parallelo su tutti e tre. Il sito è stato risistemato con schema Organization, Wikidata aggiornato con il nuovo nome, la nuova sede e i riferimenti ai premi di settore, il Google Business Profile rifatto da zero. Nel giro di tre settimane Perplexity citava già la versione corretta. Google AI Overviews ci ha messo due mesi. ChatGPT senza browsing, su domanda diretta, per diversi mesi ha continuato a restituire il vecchio nome.

Pro tip

Fai l’inventario delle fonti strutturate che parlano di te: sito, Google Business Profile, Wikidata, elenchi di settore, albi professionali.

Il test che puoi fare in dieci minuti sul tuo brand

Non serve un tool professionale per capire in quale stato sei. Fai questo percorso, nell’ordine.

Apri Rich Results Test di Google, incolla l’URL della tua homepage e cerca “Organization”: se il nome, l’indirizzo e il sito risultano corretti, il canale RAG ha di che lavorare. Se non escono, hai un problema a monte.
Vai su Wikidata e cerca il nome della tua azienda. Se esiste una scheda, verifica che dati come indirizzo, settore e sito siano aggiornati. Se non esiste, chiedi a un professionista di crearla: è una delle fonti strutturate più pescate dai modelli.
Apri Perplexity e poi ChatGPT con ricerca web, e fai tre query sul tuo settore: una generica (“produttori di X in Y”), una specifica con categoria (“migliori Z biologici in Italia”), una comparativa (“differenze tra A e B”). Guarda quali fonti vengono citate e con quali dati.

Questo è un check entry level, non sostituisce l’analisi vera, che richiede strumenti professionali e un lavoro più profondo sulla mappatura dell’entità del brand. Però ti dà in dieci minuti una foto onesta di dove sei.

Il ragionamento dietro i tempi di recepimento

Non ho eseguito un test controllato sulle finestre di retraining dei laboratori, e sarebbe disonesto inventarmi percentuali. Ragiono su quello che la ricerca documenta e su quello che osservo ripetutamente sui clienti.

Parmar e colleghi nel paper già citato osservano che applicando tecniche di continued pretraining mirato su un modello da 15 miliardi di parametri hanno ottenuto un miglioramento medio dell’accuratezza del 9% rispetto al baseline.

“When applying these findings within a continued pretraining run on top of a well-trained 15B parameter model, we show an improvement of 9% in average model accuracy compared to the baseline of continued training on the pretraining set.”

Parmar et al., 2024

Il punto pratico non è il 9%. È che i laboratori hanno un incentivo economico forte a rinfrescare i modelli con continued pretraining periodici, non con retraining da zero. Da questo segue che le finestre tipiche di aggiornamento per i modelli commerciali oscillano fra i 3 e i 12 mesi: la tua correzione viaggia su quel binario, non sul binario “online tra due giorni”. Tradotto: se nel 2026 vuoi che l’AI racconti correttamente il tuo brand, le correzioni strutturali vanno fatte nell’estate-autunno 2025, non il mese prima.

Gli errori che vedo più spesso quando si lavora sul ciclo di vita

Ci sono quattro pattern che si ripetono con fastidiosa regolarità nelle aziende che mi chiamano dopo aver “sistemato tutto”.

Aggiornare solo il sito e aspettare. Il sito aiuta il canale RAG, non tocca il training. Senza Wikidata, schema Organization completo e profili strutturati esterni, stai lavorando su un quarto del problema.

Cambiare nome senza piano di transizione. Quando un’azienda cambia brand name, per 6-12 mesi l’AI racconta il nome vecchio. Serve una pagina di continuità, una nota pubblica e una menzione in fonti autorevoli di settore.

Aspettarsi che una modifica sposti l’ago. I modelli imparano per ripetizione su scala: una fonte corretta, se tutte le altre raccontano la versione vecchia, non sposta nulla. Serve coerenza su tutti i punti di contatto pubblici.

Non monitorare cosa l’AI dice. Senza un giro periodico di query sul tuo brand, scopri il problema quando è tardi. Una cadenza mensile su 5-10 query chiave è il minimo sindacale.

Cosa fare concretamente nei prossimi 30 giorni?

Se stai pensando a una correzione importante sul tuo brand, o se l’AI sta già raccontando qualcosa di datato su di te, muoviti così.

Fai l’inventario delle fonti strutturate che parlano di te: sito, Google Business Profile, Wikidata, elenchi di settore, albi professionali. Correggi tutto in un’unica finestra temporale, non a spizzichi.
Costruisci una pagina sul sito che racconti in chiaro il “prima e dopo” del cambiamento (nuova sede, nuovo nome, nuova gamma): serve come ancora per i sistemi RAG e come base per le citazioni esterne.
Cerca 3-5 fonti autorevoli del tuo settore (riviste di nicchia, associazioni di categoria, registri premi) e verifica che abbiano la versione aggiornata. Queste sono le fonti che i modelli pescano con peso alto.
Pianifica un check trimestrale su ChatGPT, Perplexity e Gemini con le stesse 10 query: così vedi il ritmo con cui ogni modello recepisce.

Confronta sempre con i 3-5 competitor che l’AI cita oggi nel tuo settore: se loro compaiono con dati aggiornati e tu no, il gap non è sulla qualità, è sul lavoro di fonti strutturate.

Il filo con la visibilità nelle risposte AI

Il ciclo di vita dei dati di training è il motivo per cui la visibilità nelle risposte AI si costruisce in anticipo, non in reazione. Quello che ti ho raccontato negli articoli precedenti – dalla riconciliazione del knowledge graph all’associazione geografica dell’entità – lavora proprio sul fatto che i modelli imparano lentamente e dimenticano lentamente. Una volta dentro, ci resti a lungo. Ma per entrarci devi pensare in mesi, non in settimane.

Nei prossimi articoli approfondiamo il monitoraggio continuo dell’entità e la gestione delle variazioni di dominio, le due facce operative di questo tema.

Capitolo 4 · Esistere come entità, non come pagina

Prosegui la lettura degli approfondimenti

40 approfondimenti, divisi nelle 5 sezioni del capitolo.

4.1 Entity Recognition 8 approfondimenti

Brand nuovo e invisibile nelle risposte AI: come accelerare il riconoscimento Il tuo brand in italiano e in inglese sono la stessa entità per l’AI? Probabilmente no Quando l’AI non capisce più che “noi” sei tu: il problema della coreference Entity Linking: perché 50 menzioni del tuo brand valgono zero se l’AI non le collega Il tuo brand compare nelle risposte AI, ma come ti classifica? Entity salience: perché essere nominato una volta è come non essere nominato Entity disambiguation: quando l’AI confonde il tuo brand con un omonimo Named Entity Recognition: come l’AI decide se il tuo brand è “qualcuno” o solo testo

4.2 Knowledge Graph Optimization 8 approfondimenti

Product Entity vs Brand Entity: perché l’AI può conoscere il tuo nome senza sapere cosa vendi Rich Entity Attributes: perché l’AI cita con dettaglio solo le entità “grasse” Quando l’AI trova tre versioni diverse della tua azienda, smette di consigliarti Il codice fiscale del tuo brand nell’ecosistema AI sameAs: il collante che tiene insieme la tua identità per l’AI Schema Organization completo: la carta d’identità machine-readable del tuo brand Wikidata come backbone semantico: la voce che fa esistere il tuo brand per l’AI Entrare nel Knowledge Graph di Google: perché senza sei solo testo per Gemini

4.3 Entity Relationships 8 approfondimenti

Client Portfolio come Entity Network: perché i tuoi clienti sono nodi che ti rafforzano Alumni & Affiliation Network: le tue connessioni istituzionali nel grafo dell’AI Eventi come speaker: perché ogni conferenza è un nodo di autorità per l’AI Supply Chain Entity Mapping: come i partner dicono all’AI chi sei Industry Vertical Classification: la categoria che ti rende visibile (o invisibile) nelle risposte AI Associazione entità-luogo: perché Perplexity sa chi consigliare in Sardegna (e tu forse no) Competitor Entity Graph: perché l’AI cita sempre gli stessi 4-5 brand del tuo settore L’AI non ti cita da solo: ti cita dentro una rete di relazioni

4.4 Entità Verticali & Locali 8 approfondimenti

Product/Service Schema per Query Transazionali Directory verticali di settore: perché l’AI pesca da lì le sue raccomandazioni Professional Registry Entity: perché l’Albo è la tua prova di esistenza per l’AI Franchise e multi-location: perché l’AI non somma l’autorità delle tue sedi Perché l’AI raccomanda blog generalisti al posto del tuo studio medico (e come si ribalta) Chi è il dentista di Cagliari secondo ChatGPT? La risposta dipende dal Knowledge Graph della tua città NAP Consistency: perché l’AI ti manda clienti al numero sbagliato Google Business Profile come entità primaria: perché l’AI ti guarda da lì prima che dal sito

4.5 Entity Monitoring & Manutenzione 8 approfondimenti

Entity recovery dopo una crisi reputazionale: come ripulire la tua entità nel Knowledge Graph Entity Decay: perché l’AI smette di citarti (e come rientrare nelle risposte) Il tuo brand esiste in quattro versioni parallele (e non lo sai) Entity Confidence Testing: leggere il linguaggio dell’AI per capire quanto si fida del tuo brand Training Data Lifecycle: perché le correzioni al tuo sito non arrivano subito nell’AI Sei qui Knowledge Graph Poisoning Prevention: come proteggere la tua entità da informazioni false che l’AI prende per vere AI Response Monitoring per Entity: come scoprire se l’AI racconta il tuo brand con i dati giusti Entity Audit Periodico: perché i tuoi dati invecchiano anche quando non te ne accorgi

L'autore

Roberto Serra al Senato della Repubblica

Senato della Repubblica · Palazzo Giustiniani Convegno “Il potere dell'intelligenza artificiale”

Roberto Serra

Consulente SEO da oltre 15 anni, fondatore dell'Agenzia SEO Serra (RAANK). Aiuta multinazionali e PMI a restare visibili dove la ricerca si sta spostando: ChatGPT, Perplexity, Gemini e gli AI Overviews di Google.

Ne hanno parlato

Scopri di più su Roberto Serra →