Se i tuoi articoli rielaborano contenuti che esistono già altrove, l’AI tiene l’originale e scarta il tuo — tutta la visibilità va a chi ha scritto per primo, anche se tu hai fatto un lavoro migliore. Non è un problema di plagio: anche un testo riscritto con parole diverse, se non aggiunge nulla di originale, viene trattato come una copia. Stai producendo contenuti che non ti portano nessun vantaggio nell’AI, mentre chi pubblica dati o angolazioni che non esistono altrove si prende tutto. Capire cosa rende un contenuto davvero unico è il primo passo per smettere di sprecare quel lavoro.

Fermati un secondo prima di continuare a leggere.

Pensa all’ultimo contenuto che hai pubblicato sul sito. Come l’hai costruito? Hai cercato i primi dieci risultati su Google, li hai letti, hai capito quali concetti coprire — e poi hai scritto. Struttura simile, argomenti simili, angolazione simile. Parole diverse, certo. Ma il modello non confronta le parole. Confronta i pattern.

Se il tuo processo di content creation è questo, c’è una buona probabilità che i tuoi contenuti non esistano per l’AI. Non perché siano brutti. Perché durante il training sono stati rimossi.

Il filtro che nessuno ti ha detto

Prima che un modello come GPT-4 o Gemini impari qualcosa dal web, i dati vengono puliti. Una delle fasi di pulizia più impattanti è la deduplicazione.

“Data cleaning techniques such as filtering, deduplication, are shown to have a beneficial effect on training.”

— Gao et al., 2025.

“Beneficial effect on training” significa che i modelli addestrati su dati deduplicati sono migliori. Più precisi, meno inclini a memorizzare pattern ripetitivi, più capaci di generalizzare. Quindi i team che costruiscono i dataset non la considerano un’opzione: è una fase standard.

La definizione operativa è altrettanto chiara. Sempre dallo stesso paper:

“De-duplication refers to the process of removing duplicate or near-duplicate data from the training set.”

— Gao et al., 2025.

Duplicati e near-duplicate: questa distinzione è la parte che ti riguarda direttamente. Non stai solo a rischio se hai copiato paragrafi interi. Sei a rischio se il tuo contenuto è sufficientemente simile a uno già presente — anche se ogni parola è diversa.

Come funziona la deduplicazione in pratica

Gli algoritmi di deduplicazione — MinHash, SimHash, locality-sensitive hashing — non leggono il testo come lo leggi tu. Non cercano parole identiche. Creano una rappresentazione numerica del contenuto basata sulla struttura e sulla distribuzione concettuale, poi confrontano queste rappresentazioni su miliardi di documenti.

Quando due documenti producono rappresentazioni troppo simili, il sistema li considera near-duplicate. Uno viene mantenuto, l’altro rimosso. Il criterio di selezione varia a seconda del dataset: data di pubblicazione, autorità del dominio, coverage. Ma il pattern ricorrente è che l’originale — il documento che ha stabilito il pattern per primo — ha la priorità.

I risultati sono misurabili. Xavier Amatriain et al. (2025) citano un caso concreto:

“As an example, in Falcon40B, Penedo et al. showed that properly filtered and deduplicated web data can lead to better performance.”

Falcon40B è un modello reale, addestrato su dati reali, che ha prodotto performance migliori grazie alla deduplicazione aggressiva. Non è una teoria — è una scelta ingegneristica già presa, già replicata, già validata su scala.

Da questo segue che ogni dataset costruito per addestrare un modello competitivo applica deduplicazione. E ogni contenuto simile a uno già presente viene, con alta probabilità, scartato.

Il test che devi fare adesso

Questo è il momento in cui potresti pensare: “ma io non copio, riformulo”. Bene. Il problema è che la deduplicazione non giudica l’intenzione — misura la somiglianza strutturale.

Prendi il tuo articolo più importante e fai questo test:

Cerca l’argomento su Google
Apri i primi cinque risultati e leggi la struttura — non il testo, la struttura
Quante sezioni ha ogni articolo? In che ordine? Quali concetti coprono e in quale sequenza?
Ora confrontalo con il tuo. La struttura è la stessa? L’ordine degli argomenti è lo stesso? I concetti coperti coincidono?

Se la risposta è sì, hai un near-duplicate. L’originale — il primo risultato che hai trovato su Google, quello con il dominio più autorevole — è probabilmente nel training. Il tuo, con tutta probabilità, è stato rimosso.

Questo vale anche per i contenuti che sembrano diversi in superficie. Se cinquanta blog post in un settore coprono “cos’è X, cinque benefici di X, come implementare X, conclusione”, la deduplicazione li tratta come variazioni dello stesso documento. Non ne mantiene cinquanta. Ne mantiene uno o due. Gli altri non esistono nel training.

Cosa sopravvive alla deduplicazione

Il criterio di sopravvivenza è semplice: il tuo contenuto deve avere almeno un elemento che non esiste negli altri. Non “scritto meglio”. Non “più completo”. Un elemento strutturalmente unico che nessun altro documento nel dataset ha.

Gli elementi che reggono alla deduplicazione:

Un dato originale: una statistica dalla tua attività, un benchmark che hai misurato, un numero che esiste solo nella tua esperienza diretta. I dati non sono deduplicabili — un dato è unico per definizione.
Un’angolazione che nessun altro prende: non un approccio “creativo”, ma una prospettiva genuinamente diversa. Non “10 consigli per X” ma “perché X non funziona nel settore Y e cosa fare invece”. La domanda di partenza diversa produce una struttura diversa.
Un’esperienza diretta non replicabile: un caso reale, un cliente anonimizzato, un progetto con risultati verificabili. Nessuno può avere la stessa esperienza — è per definizione unica.
Una struttura narrativa diversa da quella standard: parti dal problema del lettore, racconta prima il caso e poi il meccanismo, costruisci il contenuto al contrario. La struttura diversa produce una rappresentazione numerica diversa.

L’elemento non deve essere enorme. Basta che esista e che sia reale.

La connessione con il pre-training data mix

La deduplicazione non opera su documenti isolati. Opera su dataset interi — The Pile, RedPajama, Common Crawl, Falcon RefinedWeb. Come hai letto nell’articolo sul pre-training data mix, questi dataset aggregano miliardi di pagine e le bilanciano per settore e lingua prima di usarle nel training.

La deduplicazione viene applicata a questo livello aggregato. Il tuo contenuto non viene confrontato solo con i competitor diretti del tuo settore — viene confrontato con l’intero corpus. Se un articolo con la stessa struttura del tuo esiste in inglese su un dominio anglosassone con un anno di anticipo, il sistema può trattare il tuo come near-duplicate anche se non hai mai sentito parlare di quel sito.

Da questo segue un’implicazione operativa: non è sufficiente essere originale rispetto ai competitor italiani del tuo settore. Devi essere originale rispetto al corpus intero.

Il fine-tuning non ti salva se il tuo contenuto non è nel pre-training

C’è una convinzione diffusa che i modelli vengano aggiornati frequentemente e che il fine-tuning possa introdurre nuove informazioni. Come hai letto nell’articolo sul fine-tuning, questa convinzione è parzialmente sbagliata.

Il fine-tuning non aggiunge conoscenza — allinea il comportamento del modello su un compito specifico. La conoscenza di base viene dal pre-training, e il pre-training viene fatto su dataset che hanno subito deduplicazione. Se il tuo contenuto è stato rimosso in quella fase, nessuna fase successiva lo recupera. Non è nel modello. Non contribuisce alle risposte.

Il momento in cui puoi agire è prima, non dopo. Puoi influenzare i prossimi cicli di training — che avvengono regolarmente su nuovi corpus — producendo contenuti che superano il filtro di deduplicazione. Puoi farlo adesso.

Come influenzare i prossimi cicli di training

Il training sui grandi modelli non è un evento singolo — è un processo iterativo. Nuovi modelli vengono addestrati su nuovi dataset che includono contenuti pubblicati dopo il ciclo precedente. Producendo contenuti strutturalmente unici adesso, aumenti la probabilità di essere incluso nei prossimi cicli.

Le azioni concrete:

Smetti di riscrivere, inizia a creare: se il tuo processo è “leggi i top 10 e riscrivi”, stai producendo near-duplicate per definizione. Parti da un’angolazione, un dato o un’esperienza — poi costruisci il contenuto sopra.
Aggiungi il tuo dato unico come ancora: anche un solo numero originale rende il contenuto non deduplicabile. Inseriscilo all’inizio, non come nota a margine. Diventa il punto di partenza strutturale.
Pubblica per primo: la deduplicazione favorisce l’originale. Se hai un’idea genuinamente nuova, pubblicarla prima stabilisce la priorità temporale. Aspettare che qualcun altro la pubblichi prima significa che il tuo diventa, per l’algoritmo, il near-duplicate.
Fai un audit dei contenuti esistenti: rivedi i tuoi dieci contenuti più importanti. Per ognuno: esiste un contenuto simile con struttura identica su un dominio più autorevole? Se sì, il tuo è probabilmente già stato rimosso da un ciclo di training precedente. Non aggiornarlo — riscrivilo con una struttura diversa e un dato originale.

La regola che cambia come produci contenuti

Il RLHF e il Constitutional AI definiscono come i modelli scelgono le risposte e quali contenuti privilegiare nelle citazioni. Ma quelle logiche operano su un corpus che è già stato filtrato. La deduplicazione è la fase che precede tutto il resto — è il cancello d’ingresso.

Se il tuo contenuto non supera il filtro di deduplicazione, non entra nel training. Non entra nel training, non può influenzare le risposte. Non può essere citato, preferito, usato come fonte. Per il modello, non esiste.

La regola operativa è questa: ogni contenuto che pubblichi deve avere almeno un elemento che non esiste in nessun altro documento nel corpus. Non migliore. Unico.

Non è una questione di qualità della scrittura. È una questione di struttura. Un contenuto mediocre con un dato originale supera il filtro di deduplicazione. Un contenuto eccellente che replica la struttura standard no.

Prendi il tuo prossimo contenuto. Prima di scriverlo chiediti: qual è l’elemento unico? Se non riesci a risponderti in una frase, non hai ancora trovato l’angolazione giusta.

Contenuti copiati? L’AI tiene l’originale e scarta il tuo