Se i tuoi articoli ripetono le stesse informazioni che si trovano su decine di altri siti, l’AI non ha nessun motivo per scegliere te come fonte — ha già quelle informazioni da fonti più consolidate. I modelli assegnano un punteggio di novità a ogni contenuto, e chi non aggiunge nulla di originale viene sistematicamente ignorato. Stai producendo contenuti, spendendo tempo e soldi, e regalando visibilità a chi ha scritto prima di te. Esiste un modo preciso per trovare l’angolo unico che l’AI non può ignorare — e spesso non richiede informazioni che non hai già.

Il tuo articolo sulla “SEO per ecommerce” è ben scritto, ben strutturato, con keyword al posto giusto.

Ma c’è qualcosa che non va…

Dice esattamente le stesse cose che dicono gli altri cinquanta articoli sullo stesso argomento. Per Google potresti ancora rankare con un buon profilo di backlink. Per l’AI il tuo contenuto ha information gain zero — non aggiunge nulla a ciò che il modello già sa.

E un contenuto che non aggiunge nulla non ha motivo di essere citato.

Questo è il cambio di paradigma che la maggior parte dei professionisti SEO non ha ancora assorbito: l’AI non seleziona le fonti per popolarità, le seleziona per novità informativa. Il meccanismo ha un nome preciso, ha una letteratura scientifica alle spalle, e ha implicazioni operative immediate su come produci contenuto.

Il segnale che i ricercatori hanno già misurato

Nel 2023, Sungik Choi et al. hanno pubblicato una rassegna sistematica sui modelli di linguaggio come strumenti di valutazione. Una delle conclusioni più dirette è questa: “Hence, they have also gained much attention as an attractive tool for novelty detection” — i modelli linguistici si sono affermati proprio come strumenti per rilevare quanto un contenuto sia nuovo rispetto a ciò che esiste.

Non è una speculazione sul futuro. È un fatto documentato sulla natura dei sistemi di valutazione basati su LLM: la rilevazione di novità è già parte del repertorio tecnico di questi modelli.

Da questo principio segue una deduzione importante: se il modello ha la capacità tecnica di misurare la novità di un contenuto, allora la selezione delle fonti in un sistema come Perplexity o un motore AI in generale non è indifferente alla novità di ciò che trova. Un contenuto che replica informazioni già viste ha meno ragioni per essere selezionato rispetto a uno che introduce qualcosa che il modello non ha altrove.

Questo è un claim tipo B: non ho una fonte che dica esplicitamente “l’AI cita i contenuti con information gain alto”. Ho una fonte che documenta la capacità tecnica, e da lì costruisco la deduzione operativa. La distinzione conta — e ti spiego perché più avanti.

Come funziona il calcolo della novità

Per capire perché l’AI è strutturalmente orientata alla novità, è utile capire come i modelli linguistici trattano le informazioni a livello probabilistico.

Quando un modello elabora un testo, assegna a ogni token una probabilità di occorrenza basata sul contesto. I contenuti comuni — quelli che il modello ha letto molte volte durante il training — producono sequenze di log-probability elevate: il modello “si aspetta” quelle parole, in quell’ordine, perché le ha già viste mille volte. Un contenuto che dice “la SEO richiede contenuto di qualità, backlink e ottimizzazione tecnica” è quasi letteralmente prevedibile per un LLM.

Un contenuto con information gain alto, invece, introduce token o combinazioni di token che il modello non aveva previsto. Non perché siano casuali o privi di senso — al contrario. Perché contengono un dato originale, una prospettiva non convenzionale, o una connessione tra concetti che non era già stata stabilita nel corpus di training.

Le metriche come BLEU e ROUGE misurano esattamente questa distanza tra ciò che viene generato o citato e ciò che esiste già: più alta è la distanza informativa, più il contenuto contribuisce qualcosa di nuovo al contesto.

Il problema con i contenuti che si copiano tra loro

C’è un fenomeno preciso che rende il problema peggiore di quanto sembri a prima vista. La maggior parte dei contenuti online non è indipendente: è costruita citando, riformulando o “migliorando” i contenuti che la precedono sullo stesso argomento. Il risultato è un ecosistema informativo in cui decine di articoli dicono sostanzialmente la stessa cosa con parole diverse.

Per un motore di ricerca tradizionale, questo era accettabile perché il ranking rispondeva alla domanda “qual è la versione più autorevole di questa informazione?” Per un sistema AI che deve valutare la fedeltà informativa delle sue fonti e la loro capacità di aggiungere conoscenza reale, il fenomeno è un problema strutturale.

Diversità e novità non sono opzionali — sono requisiti del sistema. Un modello che segnalasse sempre le stesse fonti per lo stesso argomento non sarebbe utile, indipendentemente dalla qualità di quelle fonti.

Da questo segue che la capacità di un contenuto di distinguersi informativamente — anche su un argomento già coperto — è una variabile che i sistemi AI hanno motivo tecnico di valorizzare.

La zona d’ombra: novità non significa correttezza

Vale la pena essere espliciti su un punto che la letteratura non ignora. Sungik Choi et al. segnalano anche un rischio:

Furthermore, the novelty detection method can be misused to keep surveillance on minorities.

Projection Regret: Reducing Background Bias for Novelty Detection via Diffusion Models, 2023

Il meccanismo di rilevazione della novità, in contesti diversi, può essere distorto. Applicato alla selezione dei contenuti, questo significa che non basta essere “nuovi” — la novità deve essere informativa, verificabile, contestualizzata. Un contenuto che introduce dati falsi o prospettive fuorvianti è nuovo nel senso tecnico del termine, ma non è quello che un sistema ben calibrato dovrebbe premiare.

Per te, operativamente, questo significa che la strategia non è “sorprendi il modello con qualcosa di strano”. È “porta dati reali che il modello non ha già visto”. La differenza tra i due approcci è la differenza tra un contenuto che viene citato una volta e poi ignorato, e uno che diventa una fonte stabile perché è anche verificabile.

Cosa rende un contenuto informativamente nuovo

Concretamente, ci sono categorie di contenuto che producono information gain alto in modo sistematico. Non perché siano formule — ma perché per natura introducono qualcosa che i contenuti generici non possono replicare.

Dati originali — un sondaggio fatto con i tuoi clienti, un benchmark su un campione che hai analizzato tu, una misurazione che nessun altro ha pubblicato. Non devono essere ricerche accademiche: un dato raccolto dalla tua pratica professionale è comunque un dato che non esiste altrove.

Osservazioni documentate — hai notato che le risposte AI su un certo argomento citano sempre le stesse tre fonti? Hai visto un pattern nel modo in cui Perplexity tratta le query locali rispetto a quelle nazionali? Quelle osservazioni, se documentate, sono information gain puro.

Connessioni non stabilite — se nessuno ha scritto su come la tokenizzazione impatta la visibilità dei brand che hanno nomi composti da parole poco frequenti in italiano, e tu lo fai con dati a supporto, hai un information gain altissimo su quella specifica intersezione.

Prospettive che contraddicono il consenso con evidenze — non il bastian contrario di professione, ma chi porta dati contro una narrativa consolidata. Il modello ha già letto la versione mainstream dell’argomento. La versione che la sfida con prove concrete è quella che aggiunge qualcosa.

Il test che puoi fare prima di pubblicare

Prima di pubblicare qualsiasi contenuto chiave, fai questo: cerca l’argomento su Google e leggi i primi dieci risultati. Poi fatti una domanda sola: il mio contenuto introduce almeno un elemento — un dato, un’osservazione, una connessione — che nessuno di questi dieci articoli ha?

Se la risposta è no, non pubblicare finché non hai aggiunto quell’elemento. Non perché il contenuto sia “brutto” — può essere scritto benissimo. Ma perché per un sistema AI che misura la novità informativa, ha esattamente lo stesso valore degli altri dieci.

Per i contenuti già pubblicati, la revisione ha senso nello stesso modo: identifica i pezzi che dicono ciò che dicono tutti, e aggiungi il tuo dato. Anche un solo punto di dati originale trasforma un contenuto ad alto rischio di ridondanza in un contenuto con un motivo per essere citato.

Il framework operativo è questo:

Scegli i cinque contenuti più importanti del tuo sito per visibilità AI
Per ognuno, fai il test dei dieci risultati
Identifica cosa puoi aggiungere: un dato dalla tua pratica, un’osservazione documentata, un confronto che non è stato fatto
Aggiungi quell’elemento prima di qualsiasi altra ottimizzazione tecnica

L’AI non cita chi ripete. Cita chi aggiunge qualcosa che non può trovare altrove. E la buona notizia è che per farlo non devi diventare un ricercatore accademico — devi solo smettere di scrivere ciò che hanno già scritto tutti gli altri.

Stai riscrivendo quello che hanno scritto tutti? L’AI cerca novità