Contenuti copiati? L’AI tiene l’originale e scarta il tuo

Se il tuo contenuto è una copia o un riadattamento di qualcosa che esiste già, i dataset di addestramento lo scartano e tengono solo l'originale — che si prende tutta la visibilità AI. Creare contenuti con un angolo, dati o struttura unica non è un consiglio SEO: è il requisito minimo per esistere nel training. Ti spiego come verificare la tua unicità.

Fermati un secondo prima di continuare a leggere.

Pensa all’ultimo contenuto che hai pubblicato sul sito. Come l’hai costruito? Hai cercato i primi dieci risultati su Google, li hai letti, hai capito quali concetti coprire — e poi hai scritto. Struttura simile, argomenti simili, angolazione simile. Parole diverse, certo. Ma il modello non confronta le parole. Confronta i pattern.

Se il tuo processo di content creation è questo, c’è una buona probabilità che i tuoi contenuti non esistano per l’AI. Non perché siano brutti. Perché durante il training sono stati rimossi.

Il filtro che nessuno ti ha detto

Prima che un modello come GPT-4 o Gemini impari qualcosa dal web, i dati vengono puliti. Una delle fasi di pulizia più impattanti è la deduplicazione.

Zhao et al. (2024) la documentano in modo diretto:

“Data cleaning techniques such as filtering, deduplication, are shown to have a beneficial effect on training.”

— Zhao et al., 2024 (arxiv.org/html/2402.06196)

“Beneficial effect on training” significa che i modelli addestrati su dati deduplicati sono migliori. Più precisi, meno inclini a memorizzare pattern ripetitivi, più capaci di generalizzare. Quindi i team che costruiscono i dataset non la considerano un’opzione: è una fase standard.

La definizione operativa è altrettanto chiara. Sempre dallo stesso paper:

“De-duplication refers to the process of removing duplicate or near-duplicate data from the training set.”

— Zhao et al., 2024 (arxiv.org/html/2402.06196)

Duplicati e near-duplicate: questa distinzione è la parte che ti riguarda direttamente. Non stai solo a rischio se hai copiato paragrafi interi. Sei a rischio se il tuo contenuto è sufficientemente simile a uno già presente — anche se ogni parola è diversa.

Come funziona la deduplicazione in pratica

Gli algoritmi di deduplicazione — MinHash, SimHash, locality-sensitive hashing — non leggono il testo come lo leggi tu. Non cercano parole identiche. Creano una rappresentazione numerica del contenuto basata sulla struttura e sulla distribuzione concettuale, poi confrontano queste rappresentazioni su miliardi di documenti.

Quando due documenti producono rappresentazioni troppo simili, il sistema li considera near-duplicate. Uno viene mantenuto, l’altro rimosso. Il criterio di selezione varia a seconda del dataset: data di pubblicazione, autorità del dominio, coverage. Ma il pattern ricorrente è che l’originale — il documento che ha stabilito il pattern per primo — ha la priorità.

I risultati sono misurabili. Zhao et al. (2024) citano un caso concreto:

“As an example, in Falcon40B, Penedo et al. showed that properly filtered and deduplicated web data can lead to better performance.”

— Zhao et al., 2024 (arxiv.org/html/2402.06196)

Falcon40B è un modello reale, addestrato su dati reali, che ha prodotto performance migliori grazie alla deduplicazione aggressiva. Non è una teoria — è una scelta ingegneristica già presa, già replicata, già validata su scala.

Da questo segue che ogni dataset costruito per addestrare un modello competitivo applica deduplicazione. E ogni contenuto simile a uno già presente viene, con alta probabilità, scartato.

Il test che devi fare adesso

Questo è il momento in cui potresti pensare: “ma io non copio, riformulo”. Bene. Il problema è che la deduplicazione non giudica l’intenzione — misura la somiglianza strutturale.

Prendi il tuo articolo più importante e fai questo test:

  1. Cerca l’argomento su Google
  2. Apri i primi cinque risultati e leggi la struttura — non il testo, la struttura
  3. Quante sezioni ha ogni articolo? In che ordine? Quali concetti coprono e in quale sequenza?
  4. Ora confronta con il tuo. La struttura è la stessa? L’ordine degli argomenti è lo stesso? I concetti coperti coincidono?

Se la risposta è sì, hai un near-duplicate. L’originale — il primo risultato che hai trovato su Google, quello con il dominio più autorevole — è probabilmente nel training. Il tuo, con tutta la probabilità, è stato rimosso.

Questo vale anche per i contenuti che sembrano diversi in superficie. Se cinquanta blog post in un settore coprono “cos’è X, cinque benefici di X, come implementare X, conclusione”, la deduplicazione li tratta come variazioni dello stesso documento. Non ne mantiene cinquanta. Ne mantiene uno o due. Gli altri non esistono nel training.

Cosa sopravvive alla deduplicazione

Il criterio di sopravvivenza è semplice: il tuo contenuto deve avere almeno un elemento che non esiste negli altri. Non “scritto meglio”. Non “più completo”. Un elemento strutturalmente unico che nessun altro documento nel dataset ha.

Gli elementi che reggono alla deduplicazione:

  • Un dato originale: una statistica dalla tua attività, un benchmark che hai misurato, un numero che esiste solo nella tua esperienza diretta. I dati non sono deduplicabili — un dato è unico per definizione.
  • Un’angolazione che nessun altro prende: non un approccio “creativo”, ma una prospettiva genuinamente diversa. Non “10 consigli per X” ma “perché X non funziona nel settore Y e cosa fare invece”. La domanda di partenza diversa produce una struttura diversa.
  • Un’esperienza diretta non replicabile: un caso reale, un cliente anonimizzato, un progetto con risultati verificabili. Nessuno può avere la stessa esperienza — è per definizione unica.
  • Una struttura narrativa diversa da quella standard: parti dal problema del lettore, racconta prima il caso e poi il meccanismo, costruisci il contenuto al contrario. La struttura diversa produce una rappresentazione numerica diversa.

L’elemento non deve essere enorme. Basta che esista e che sia reale.

La connessione con il pre-training data mix

La deduplicazione non opera su documenti isolati. Opera su dataset interi — The Pile, RedPajama, Common Crawl, Falcon RefinedWeb. Come hai letto nell’articolo sul pre-training data mix, questi dataset aggregano miliardi di pagine e le bilanciano per settore e lingua prima di usarle nel training.

La deduplicazione viene applicata a questo livello aggregato. Il tuo contenuto non viene confrontato solo con i competitor diretti del tuo settore — viene confrontato con l’intero corpus. Se un articolo con la stessa struttura del tuo esiste in inglese su un dominio anglosassone con un anno di anticipo, il sistema può trattare il tuo come near-duplicate anche se non hai mai sentito parlare di quel sito.

Da questo segue un’implicazione operativa: non è sufficiente essere originale rispetto ai competitor italiani del tuo settore. Devi essere originale rispetto al corpus intero.

Il fine-tuning non ti salva se il tuo contenuto non è nel pre-training

C’è una convinzione diffusa che i modelli vengano aggiornati frequentemente e che il fine-tuning possa introdurre nuove informazioni. Come hai letto nell’articolo sul fine-tuning, questa convinzione è parzialmente sbagliata.

Il fine-tuning non aggiunge conoscenza — allinea il comportamento del modello su un compito specifico. La conoscenza di base viene dal pre-training, e il pre-training viene fatto su dataset che hanno subito deduplicazione. Se il tuo contenuto è stato rimosso in quella fase, nessuna fase successiva lo recupera. Non è nel modello. Non contribuisce alle risposte.

Il momento in cui puoi agire è prima, non dopo. Puoi influenzare i prossimi cicli di training — che avvengono regolarmente su nuovi corpus — producendo contenuti che superano il filtro di deduplicazione. Puoi farlo adesso.

Come influenzare i prossimi cicli di training

Il training sui grandi modelli non è un evento singolo — è un processo iterativo. Nuovi modelli vengono addestrati su nuovi dataset che includono contenuti pubblicati dopo il ciclo precedente. Producendo contenuti strutturalmente unici adesso, aumenti la probabilità di essere incluso nei prossimi cicli.

Le azioni concrete:

  • Smetti di riscrivere, inizia a creare: se il tuo processo è “leggi i top 10 e riscrivi”, stai producendo near-duplicate per definizione. Parti da un’angolazione, un dato o un’esperienza — poi costruisci il contenuto sopra.
  • Aggiungi il tuo dato unico come ancora: anche un solo numero originale rende il contenuto non deduplicabile. Inseriscilo all’inizio, non come nota a margine. Diventa il punto di partenza strutturale.
  • Pubblica per primo: la deduplicazione favorisce l’originale. Se hai un’idea genuinamente nuova, pubblicarla prima stabilisce la priorità temporale. Aspettare che qualcun altro la pubblichi prima significa che il tuo diventa, per l’algoritmo, il near-duplicate.
  • Fai un audit dei contenuti esistenti: rivedi i tuoi dieci contenuti più importanti. Per ognuno: esiste un contenuto simile con struttura identica su un dominio più autorevole? Se sì, il tuo è probabilmente già stato rimosso da un ciclo di training precedente. Non aggiornarlo — riscrivilo con una struttura diversa e un dato originale.

La regola che cambia come produci contenuti

Il RLHF e il Constitutional AI definiscono come i modelli scelgono le risposte e quali contenuti privilegiare nelle citazioni. Ma quelle logiche operano su un corpus che è già stato filtrato. La deduplicazione è la fase che precede tutto il resto — è il cancello d’ingresso.

Se il tuo contenuto non supera il filtro di deduplicazione, non entra nel training. Non entra nel training, non può influenzare le risposte. Non può essere citato, preferito, usato come fonte. Per il modello, non esiste.

La regola operativa è questa: ogni contenuto che pubblichi deve avere almeno un elemento che non esiste in nessun altro documento nel corpus. Non migliore. Unico.

Non è una questione di qualità della scrittura. È una questione di struttura. Un contenuto mediocre con un dato originale supera il filtro di deduplicazione. Un contenuto eccellente che replica la struttura standard no.

Prendi il tuo prossimo contenuto. Identificali prima di scriverlo: qual è l’elemento unico? Se non riesci a risponderti in una frase, non hai ancora trovato l’angolazione giusta. Trovala prima di aprire il documento.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Quanto è visibile il tuo brand per le AI? Analizza il tuo brand