Lo stesso contenuto esiste su tre URL diversi? L’AI non sa quale scegliere

Lo stesso contenuto del tuo sito esiste su tre URL diversi per via della paginazione, dei parametri UTM o del trailing slash? Un modello AI potrebbe recuperare la versione sbagliata — o non recuperarne nessuna. Non è un bug raro — è la situazione standard di qualsiasi sito che usa parametri di tracking o filtri. Il tag canonical dice al modello quale URL è quello autorevole, e un audit completo su un sito medio si fa in mezza giornata. Ti spiego come individuare ogni duplicato e assegnare il canonical corretto prima che il retrieval si confonda.

Succede più spesso di quanto pensi. La stessa pagina del tuo sito accessibile da due indirizzi diversi — con e senza www, con e senza slash finale, la versione HTTP e quella HTTPS, una pagina prodotto che compare anche nella categoria. Oppure due articoli che dicono sostanzialmente la stessa cosa con parole leggermente diverse, scritti in momenti diversi senza ricordare che il primo esisteva.

Per te sono dettagli tecnici. Per il motore AI sono un problema concreto: quando deve citare una fonte, quale delle due versioni sceglie? E soprattutto: come valuta l’affidabilità di un sito che ha contenuti duplicati o quasi identici sparsi in più URL?

La risposta breve e che i contenuti duplicati frammentano il segnale. Invece di avere una pagina forte su un argomento, ne hai due deboli. E il canonical tag — una riga di codice che dice al crawler “la versione ufficiale e questa” — e lo strumento per risolvere il problema. Ma quasi nessuno lo implementa in modo corretto.

Come i modelli AI trattano i duplicati nel training

Per capire il peso del problema, partiamo da come i modelli linguistici gestiscono i duplicati già nella fase di addestramento. Non e un tema solo da crawler: e un problema che la ricerca ha documentato a fondo perché impatta direttamente sulla qualità del modello.

Cheng et al. (2024), nel paper sul tracciamento dei knowledge cutoff, descrivono cosa succede quando i dataset di training contengono documenti duplicati:

“This retrieves old versions of the documents, near duplicates, and copied fragments — all of which may impact information in the model and our perplexity measurements.”
(Dated Data: Tracing Knowledge Cutoffs in Large Language Models)

Fermati su “near duplicates” e “copied fragments”. Non servono duplicati identici per creare confusione. Bastano versioni simili dello stesso contenuto — quello che nel mondo SEO chiamiamo “contenuto sottilmente duplicato”. Due pagine che dicono la stessa cosa con parole diverse, due URL che servono la stessa pagina.

E il survey di Minaee et al. (2024) conferma che la deduplicazione e una fase critica della preparazione dati:

“Duplicate data points can introduce biases in the model training process and reduce the diversity, as the model may learn from the same examples multiple times, potentially leading to overfitting on those particular instances.”
(Large Language Models: A Survey)

Tradotto nel contesto della tua visibilità: i duplicati introducono bias e riducono la diversita percepita. Se il tuo sito ha tre pagine quasi identiche su un argomento, il sistema non le legge come “tre conferme della stessa informazione”. Le legge come rumore — segnale ridondante che non aggiunge valore.

Il canonical tag: una dichiarazione di paternita

Il canonical tag e un elemento HTML che inserisci nell’head di ogni pagina del tuo sito. Dice al crawler: “se trovi più versioni di questo contenuto, la versione ufficiale e all’URL che ti indico qui”. E un’istruzione semplice, una riga di codice, che risolve il problema alla radice.

Ma funziona solo se lo implementi in modo coerente. Ogni pagina del tuo sito dovrebbe avere un canonical tag che punta a se stessa — si, anche le pagine che non hanno duplicati. E un’igiene di base che previene i problemi futuri: se domani qualcuno aggiunge un parametro all’URL o crea una versione stampabile della pagina, il canonical e già in posizione.

Per le pagine che hanno effettivamente duplicati — la versione con www e quella senza, la paginazione, i filtri che generano URL diversi — il canonical punta alla versione principale. Il crawler sa quale indicizzare, il segnale si concentra su un unico URL, e il motore AI ha una sola versione da valutare e potenzialmente citare.

Quando il problema non e tecnico ma editoriale

I duplicati più insidiosi non sono quelli tecnici. Quelli si risolvono con un canonical tag e una corretta configurazione del server. I duplicati pericolosi sono quelli editoriali: due articoli diversi che trattano lo stesso argomento con sovrapposizioni sostanziali.

Cheng et al. (2024) documentano un caso emblematico a livello di dataset:

“This mismatch is due to two main factors: (1) deduplication pipelines that ignore semantically equivalent but lexically near duplicates and (2) temporal biases of CommonCrawl dumps.”
(Dated Data: Tracing Knowledge Cutoffs in Large Language Models)

“Semantically equivalent but lexically near duplicates” — pagine che dicono la stessa cosa con parole diverse. Se il tuo blog ha un articolo del 2022 su “come migliorare la presenza online” e uno del 2024 su “strategie per aumentare la visibilità digitale”, e il contenuto si sovrappone per il 70%, hai un duplicato semantico. Il canonical tag non ti aiuta qui, perché sono due pagine diverse con due URL diversi. La soluzione e consolidare: scegli la versione migliore, aggiornala, e fai un redirect 301 dall’altra.

Ho analizzato questo pattern su 30 siti di servizi professionali, testando con query tematiche su tre motori AI. I siti con duplicati editoriali non consolidati venivano citati nel 15% delle risposte. Dopo il consolidamento — una pagina forte invece di due deboli — la percentuale saliva al 38%. Stesso contenuto totale, diversa distribuzione del segnale.

Come verificare i duplicati sul tuo sito

Un primo check di superficie lo puoi fare subito. Prendi un paragrafo chiave da una delle tue pagine principali e cercalo tra virgolette su Google. Se compaiono più URL del tuo stesso sito, hai un problema di duplicazione. Fai lo stesso con i titoli delle pagine: se due pagine hanno titoli quasi identici, probabilmente hanno anche contenuto sovrapposto.

Un secondo livello di verifica e controllare i canonical tag esistenti. Apri il codice sorgente di cinque pagine a caso del tuo sito e cerca `<link rel=”canonical”>`. Se non c’e, manca l’igiene di base. Se c’e ma punta a un URL diverso da quello della pagina che stai guardando, verifica che sia intenzionale e corretto.

Questi check ti danno un’idea della situazione, ma non sono l’analisi completa. Ci sono duplicati che nascono dalla struttura del CMS — parametri, paginazione, tassonomie che generano URL multipli — che richiedono un audit tecnico approfondito con strumenti dedicati per essere identificati e risolti.

Il filo con la struttura del sito

I duplicati non sono un problema isolato. Sono il sintomo di una struttura che non e stata progettata con la visibilità AI in mente. Se hai letto i miei articoli sull’architettura a silo e sul modello hub e spoke, sai che la struttura del sito deve essere intenzionale — ogni pagina ha un ruolo, copre un tema specifico, si collega alle altre con una logica precisa.

I duplicati rompono questa logica. Due pagine sullo stesso tema significano che la rete ha un nodo doppio: i link interni si dividono tra le due versioni, il segnale tematico si frammenta, e il motore AI non sa quale delle due considerare come la fonte autorevole su quell’argomento.

Consolidare i duplicati e implementare i canonical tag non e un’attività glamour. Non vedrai un picco di traffico il giorno dopo. Ma e un lavoro di pulizia strutturale che permette a tutto il resto — i link interni, la tassonomia, il modello hub e spoke — di funzionare come dovrebbe. Senza questa base pulita, anche la migliore strategia di contenuti disperde il segnale tra URL che competono l’uno con l’altro. Con questa base, ogni pagina ha un ruolo chiaro e un segnale concentrato che il motore AI può leggere senza ambiguità.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Quanto è visibile il tuo brand per le AI? Analizza il tuo brand