Hai cambiato sede, aggiornato i servizi o modificato i prezzi negli ultimi mesi? L’AI probabilmente sta ancora dicendo ai tuoi potenziali clienti le informazioni vecchie — o in alcuni casi informazioni che non sono mai state vere, inventate per colmare i vuoti. Ogni giorno qualcuno chiede all’AI della tua azienda e riceve dati sbagliati, senza che tu lo sappia e senza che possa correggerlo al momento. Verificare cosa dice l’AI di te oggi è il primo passo — e correggere il problema si può fare presidiando le fonti giuste.

Hai cambiato sede sei mesi fa. Hai lanciato un nuovo servizio. Hai aggiornato i prezzi. Eppure quando chiedi a ChatGPT informazioni sulla tua azienda, risponde con i dati di due anni fa — o peggio, inventa informazioni che non sono mai state vere.

Se ti è capitato, sappi che non è un bug. È una conseguenza diretta di come i modelli vengono addestrati, e si chiama knowledge cutoff. Ma la parte interessante — quella che quasi nessuno ti dice — è che il cutoff non funziona nemmeno come pensi.

Il cutoff non è una data: è una zona grigia

Ogni LLM viene addestrato su un corpus di dati raccolti fino a una certa data — il cutoff. Ogni versione di GPT, Claude, Gemini ha il suo. Dopo quella data, il modello non ha informazioni dirette. Fin qui è semplice.

Ma c’è un paper del 2024 di Benjamin Van Durme et al. che ha indagato cosa succede davvero sotto la superficie, e il risultato è più sfumato di quanto sembra:

“This simple metric oversimplifies LLM training in a detrimental manner to usability; it leaves unanswered the questions of ‘is this knowledge cutoff specific for all resources in the model’, ‘how many copies of my resource are in the model’ or ‘which versions of my corpus are included?’ We propose a method to automatically determine the effective cutoff date of LLMs for a given resource and show that although sometimes it does align with the reported cutoff, in many cases it does not.”
(Dated Data: Tracing Knowledge Cutoffs in LLMs)

Tradotto: il cutoff dichiarato è una semplificazione. In realtà, il modello potrebbe avere informazioni più recenti per alcuni argomenti e più vecchie per altri, a seconda di quante copie di quella risorsa erano nel corpus e di quale versione è stata inclusa.

Per il tuo brand questo significa che non puoi assumere nulla. Un modello con cutoff dichiarato a inizio 2025 potrebbe avere informazioni sulla tua azienda del 2022, o una versione parziale della tua pagina Wikipedia del 2021. Dipende da quante volte le tue informazioni sono state raccolte e indicizzate nel corpus di training.

E qui sta il collegamento diretto con la tua visibilità: se il modello ha una versione vecchia o parziale delle tue informazioni, quando un potenziale cliente chiede “chi è il miglior [tuo servizio] a [tua città]?”, l’AI o ti ignora perché le informazioni sono troppo datate, o — peggio — ti descrive in modo sbagliato. In entrambi i casi, il cliente va dal competitor.

Il vero rischio: la confabulazione

Ma il problema del cutoff non è solo l’obsolescenza. Il problema peggiore è cosa fa il modello quando non ha l’informazione.

Non ammette di non sapere. Genera una risposta plausibile basata su pattern statistici — nel mondo della ricerca si chiama confabulazione. Il risultato possono essere informazioni completamente inventate: sedi dove non sei mai stato, prodotti che non vendi, numeri di telefono inesistenti, nomi di persone che non lavorano più da te.

Per il tuo business è un rischio reputazionale silenzioso. Un potenziale cliente chiede a ChatGPT “quali servizi offre [tuo brand]?” e riceve una lista inventata. Non sa che è inventata. Prende una decisione sulla base di quella lista — magari scarta la tua azienda perché il servizio che cercava non compare, anche se lo offri da due anni.

Ho verificato questo pattern su 15 PMI italiane, chiedendo ai tre principali motori AI informazioni di base: indirizzo, servizi, CEO, anno di fondazione. In 11 casi su 15, almeno un dato era obsoleto. In 6 casi, almeno un dato era inventato di sana pianta — un servizio mai offerto, una sede mai avuta, un fondatore con il nome sbagliato.

I tre canali e come si comportano

Non tutti i sistemi AI hanno lo stesso rapporto con il cutoff. Capire le differenze è il primo passo per decidere dove intervenire.

Modelli senza browsing (ChatGPT in modalità base, per esempio) rispondono solo dal training data. Se le tue informazioni sono cambiate dopo il cutoff — o peggio, se nel training c’era una versione sbagliata — la risposta è sbagliata, punto.

Sistemi con RAG (Perplexity, Bing Chat, ChatGPT con browsing attivo) cercano in tempo reale prima di rispondere. Qui il cutoff pesa meno, ma non è irrilevante: se il tuo sito non è facilmente crawlabile o se le fonti aggiornate sono deboli, il sistema potrebbe dare più peso alle informazioni dal training. E il training ha un vantaggio percepito di “affidabilità” proprio perché consolidato — il che significa che le tue informazioni vecchie nel training possono prevalere su quelle nuove del sito, se il sito è l’unica fonte aggiornata.

Google Gemini e le AI Overview combinano training e ricerca in tempo reale, ma con un eccesso di fiducia: ciò che il modello ha appreso nel training pesa più di ciò che trova live. Le informazioni aggiornate vincono solo se provengono da più fonti autorevoli che dicono la stessa cosa — e qui entra in gioco la gerarchia delle fonti che determina di chi l’AI si fida.

La conseguenza per chi vuole farsi trovare è netta: se l’unica fonte aggiornata sei tu (il tuo sito), probabilmente non basta. Servono più segnali concordanti — il profilo Wikidata, il Google Business Profile, le directory di settore — che dicano tutti la stessa cosa corretta. Solo così il segnale aggiornato supera quello consolidato nel training.

Come aggirare il cutoff: presidiare le fonti RAG

Non puoi cambiare il training data passato. Ma puoi fare in modo che i sistemi RAG — che cercano in tempo reale — trovino le tue informazioni corrette prima di ripiegare sul training.

Le fonti che i sistemi RAG consultano con più frequenza e più fiducia non sono le stesse di Google. Nella mia analisi, le fonti che influenzano di più le risposte aggiornate sono:

Wikidata e Wikipedia: Wikidata è il database strutturato che alimenta molte risposte AI — se il tuo brand ha un’entità Wikidata con dati corretti, il segnale è fortissimo. Wikipedia è la fonte testuale che molti sistemi RAG consultano per prima. Tenerle aggiornate non è banale — richiede conoscere i criteri di notabilità, il formato dei dati strutturati, le policy editoriali — ma è uno degli interventi a più alto impatto.

Google Business Profile: indirizzo, orari, servizi, foto. Per le query locali (“migliore [servizio] a [città]”), è spesso la fonte primaria da cui l’AI attinge. Un profilo incompleto o non aggiornato è un’occasione persa ogni volta che qualcuno fa una domanda geolocalizzata.

Il tuo sito — ma con dati strutturati: non basta avere le informazioni nella pagina About. Servono dati strutturati (schema Organization) con indirizzo, telefono, servizi, anno di fondazione, e un `dateModified` aggiornato ogni volta che cambi qualcosa. I crawler AI leggono i dati strutturati prima del testo della pagina — è il modo più rapido per comunicare informazioni corrette.

Directory di settore: Crunchbase, LinkedIn aziendale, directory verticali. Ogni fonte aggiornata che conferma le stesse informazioni rafforza il segnale e rende più difficile per il training data obsoleto prevalere.

La regola è semplice: più fonti autorevoli dicono la stessa cosa aggiornata, più il sistema RAG si fida dell’informazione nuova. Una sola fonte (il tuo sito) contro le informazioni consolidate nel training spesso non basta. Servono almeno 3-4 segnali concordanti.

Il monitoraggio è parte della strategia

Una cosa che consiglio sempre ai clienti: aggiungi il monitoraggio AI alla tua routine. Almeno una volta al mese, fai le stesse 5 domande sul tuo brand ai principali motori AI:

“Cos’è [tuo brand]?” — descrizione accurata?
“Dove si trova [tuo brand]?” — indirizzo giusto?
“Quali servizi offre [tuo brand]?” — lista corretta?
“Chi è il fondatore/CEO di [tuo brand]?” — persone giuste?
“Quali sono le opinioni su [tuo brand]?” — sentiment realistico?

Annota ogni errore. Poi risali alla fonte: quell’informazione sbagliata è nel tuo Google Business Profile? Su Wikipedia? Su una directory vecchia? L’AI l’ha presa da qualche parte — trovare la fonte dell’errore è il primo passo per correggerlo.

Il knowledge cutoff è un limite strutturale dei modelli, ma non è una condanna. Chi presidia le fonti RAG con informazioni corrette e aggiornate — Wikidata, Google Business Profile, sito strutturato, directory di settore — aggira il problema e si fa trovare con i dati giusti. Chi lo ignora lascia che l’AI racconti una versione obsoleta — o inventata — del proprio brand a ogni potenziale cliente che fa una domanda.

È un lavoro che va fatto con metodo e mantenuto nel tempo — non è un intervento una tantum. Ma è anche uno dei pochi ambiti dove chi si muove per primo ha un vantaggio netto, perché la maggior parte dei competitor non lo sta ancora facendo.

L’AI risponde con dati vecchi sul tuo brand? Ecco perché succede

Il cutoff non è una data: è una zona grigia

Il vero rischio: la confabulazione

I tre canali e come si comportano

Come aggirare il cutoff: presidiare le fonti RAG

Il monitoraggio è parte della strategia

Lascia un commento Annulla risposta