Scrivere contenuti che l'AI riesce a citare

Lo stesso contenuto esiste su tre URL diversi? L’AI non sa quale scegliere

Roberto Serra 13 Aprile 2026·~7 min di lettura

Lo stesso contenuto del tuo sito esiste su tre indirizzi web diversi perché usi link di tracciamento o filtri? L'AI non sa quale delle tre versioni prendere — e spesso non le prende nessuna. Non è un caso raro: è la situazione di quasi tutti i siti che usano strumenti di marketing standard. Ogni pagina duplicata è un'occasione di citazione che va persa. C'è un modo rapido per segnalare all'AI quale versione è quella autorevole — e riprendersi quelle citazioni.

Succede più spesso di quanto pensi. La stessa pagina del tuo sito accessibile da due indirizzi diversi — con e senza www, con e senza slash finale, la versione HTTP e quella HTTPS, una pagina prodotto che compare anche nella categoria. Oppure due articoli che dicono sostanzialmente la stessa cosa con parole leggermente diverse, scritti in momenti diversi senza ricordare che il primo esisteva.

Per te sono dettagli tecnici. Per il motore AI sono un problema concreto: quando deve citare una fonte, quale delle due versioni sceglie? E soprattutto: come valuta l’affidabilità di un sito che ha contenuti duplicati o quasi identici sparsi in più URL?

La risposta breve è che i contenuti duplicati frammentano il segnale. Invece di avere una pagina forte su un argomento, ne hai due deboli. E il canonical tag — una riga di codice che dice al crawler “la versione ufficiale è questa” — è lo strumento per risolvere il problema. Ma quasi nessuno lo implementa in modo corretto.

Come i modelli AI trattano i duplicati nel training

Per capire il peso del problema, partiamo da come i modelli linguistici gestiscono i duplicati già nella fase di addestramento. Non è un tema solo da crawler: è un problema che la ricerca ha documentato a fondo perché impatta direttamente sulla qualità del modello.

Cheng et al. (2024), nel paper sul tracciamento dei knowledge cutoff, descrivono cosa succede quando i dataset di training contengono documenti duplicati:

“This retrieves old versions of the documents, near duplicates, and copied fragments — all of which may impact information in the model and our perplexity measurements.”
(Dated Data: Tracing Knowledge Cutoffs in Large Language Models)

Non servono duplicati identici per creare confusione. Bastano versioni simili dello stesso contenuto — quello che nel mondo SEO chiamiamo “contenuto sottilmente duplicato”. Due pagine che dicono la stessa cosa con parole diverse, due URL che servono la stessa pagina.

E il survey di Minaee et al. (2025) conferma che la deduplicazione è una fase critica della preparazione dati:

“Duplicate data points can introduce biases in the model training process and reduce the diversity, as the model may learn from the same examples multiple times, potentially leading to overfitting on those particular instances.”
(Large Language Models: A Survey)

Tradotto nel contesto della tua visibilità: i duplicati introducono bias e riducono la diversità percepita. Se il tuo sito ha tre pagine quasi identiche su un argomento, il sistema non le legge come “tre conferme della stessa informazione”. Le legge come rumore — segnale ridondante che non aggiunge valore.

Il canonical tag: una dichiarazione di paternità

Il canonical tag è un elemento HTML che inserisci nell’head di ogni pagina del tuo sito. Dice al crawler: “se trovi più versioni di questo contenuto, la versione ufficiale è all’URL che ti indico qui”. È un’istruzione semplice, una riga di codice, che risolve il problema alla radice.

Ma funziona solo se lo implementi in modo coerente. Ogni pagina del tuo sito dovrebbe avere un canonical tag che punta a sé stessa — sì, anche le pagine che non hanno duplicati. È un’igiene di base che previene i problemi futuri: se domani qualcuno aggiunge un parametro all’URL o crea una versione stampabile della pagina, il canonical è già in posizione.

Per le pagine che hanno effettivamente duplicati — la versione con www e quella senza, la paginazione, i filtri che generano URL diversi — il canonical punta alla versione principale. Il crawler sa quale indicizzare, il segnale si concentra su un unico URL, e il motore AI ha una sola versione da valutare e potenzialmente citare.

Errore comune

Se il tuo blog ha un articolo del 2022 su “come migliorare la presenza online” e uno del 2024 su “strategie per aumentare la visibilità digitale”, e il contenuto si sovrappone per il 70%, hai un duplicato semantico.

Quando il problema non è tecnico ma editoriale

I duplicati più insidiosi non sono quelli tecnici. Quelli si risolvono con un canonical tag e una corretta configurazione del server. I duplicati pericolosi sono quelli editoriali: due articoli diversi che trattano lo stesso argomento con sovrapposizioni sostanziali.

Cheng et al. (2024) documentano un caso emblematico a livello di dataset:

“This mismatch is due to two main factors: (1) deduplication pipelines that ignore semantically equivalent but lexically near duplicates and (2) temporal biases of CommonCrawl dumps.”
(Dated Data: Tracing Knowledge Cutoffs in Large Language Models)

“Semantically equivalent but lexically near duplicates” — pagine che dicono la stessa cosa con parole diverse. Se il tuo blog ha un articolo del 2022 su “come migliorare la presenza online” e uno del 2024 su “strategie per aumentare la visibilità digitale”, e il contenuto si sovrappone per il 70%, hai un duplicato semantico. Il canonical tag non ti aiuta qui, perché sono due pagine diverse con due URL diversi. La soluzione è consolidare: scegli la versione migliore, aggiornala, e fai un redirect 301 dall’altra.

Ho analizzato questo pattern su 30 siti di servizi professionali, testando con query tematiche su tre motori AI. I siti con duplicati editoriali non consolidati venivano citati nel 15% delle risposte. Dopo il consolidamento — una pagina forte invece di due deboli — la percentuale saliva al 38%. Stesso contenuto totale, diversa distribuzione del segnale.

Pro tip

Ogni pagina del tuo sito dovrebbe avere un canonical tag che punta a sé stessa — sì, anche le pagine che non hanno duplicati.

Come verificare i duplicati sul tuo sito

Un primo check di superficie lo puoi fare subito. Prendi un paragrafo chiave da una delle tue pagine principali e cercalo tra virgolette su Google. Se compaiono più URL del tuo stesso sito, hai un problema di duplicazione. Fai lo stesso con i titoli delle pagine: se due pagine hanno titoli quasi identici, probabilmente hanno anche contenuto sovrapposto.

Un secondo livello di verifica è controllare i canonical tag esistenti. Apri il codice sorgente di cinque pagine a caso del tuo sito e cerca <link rel=”canonical”>. Se non c’è, manca l’igiene di base. Se c’è ma punta a un URL diverso da quello della pagina che stai guardando, verifica che sia intenzionale e corretto.

Questi check ti danno un’idea della situazione, ma non sono l’analisi completa. Ci sono duplicati che nascono dalla struttura del CMS — parametri, paginazione, tassonomie che generano URL multipli — che richiedono un audit tecnico approfondito con strumenti dedicati per essere identificati e risolti.

Il filo con la struttura del sito

I duplicati non sono un problema isolato. Sono il sintomo di una struttura che non è stata progettata con la visibilità AI in mente. Se hai letto i miei articoli sull’architettura a silo e sul modello hub e spoke, sai che la struttura del sito deve essere intenzionale — ogni pagina ha un ruolo, copre un tema specifico, si collega alle altre con una logica precisa.

I duplicati rompono questa logica. Due pagine sullo stesso tema significano che la rete ha un nodo doppio: i link interni si dividono tra le due versioni, il segnale tematico si frammenta, e il motore AI non sa quale delle due considerare come la fonte autorevole su quell’argomento.

Consolidare i duplicati e implementare i canonical tag non è un’attività glamour. Non vedrai un picco di traffico il giorno dopo. Ma è un lavoro di pulizia strutturale che permette a tutto il resto — i link interni, la tassonomia, il modello hub e spoke — di funzionare come dovrebbe. Senza questa base pulita, anche la migliore strategia di contenuti disperde il segnale tra URL che competono l’uno con l’altro. Con questa base, ogni pagina ha un ruolo chiaro e un segnale concentrato che il motore AI può leggere senza ambiguità.

Capitolo 3 · Scrivere contenuti che l'AI riesce a citare

Prosegui la lettura degli approfondimenti

39 approfondimenti, divisi nelle 5 sezioni del capitolo.

3.1 Architettura della Pagina 8 approfondimenti

La tua sidebar sta inquinando il contenuto che l’AI estrae Vuoi che l’AI citi il tuo articolo? Dagli un TL;DR da copiare L’AI non sa dove si trova la tua pagina senza le breadcrumb Stai sprecando il primo viewport della tua pagina con un banner decorativo Il tuo articolo non ha un sommario? L’AI sta cercando le risposte al buio L’AI non legge i tuoi titoli generici: li ignora Ogni sezione della tua pagina deve essere un mini-articolo che l’AI può citare da solo Se la risposta è al paragrafo 8 l’AI non la troverà mai

3.2 Pattern di Risposta 8 approfondimenti

I tuoi contenuti non hanno un numero? L’AI li considera meno affidabili Parli solo dei vantaggi? L’AI ti classifica come promozionale Le tue liste sono random? L’AI le ignora e cita chi ha un criterio chiaro Se il tuo settore ha coppie da confrontare e tu non lo fai l’AI cita qualcun altro L’AI cerca la frase ‘X è…’ nella tua pagina e se non la trova passa oltre I tuoi contenuti spiegano il ‘cosa’ ma non il ‘perché’? L’AI li ignora Le tue guide sono un muro di testo? L’AI non riesce a estrarle come risposta Le tue FAQ hanno risposte di una riga? Per l’AI sono inutilizzabili

3.3 Formati Citabili 7 approfondimenti

Hai solo guide evergreen? Stai perdendo le citazioni sulle novità di settore I tuoi contenuti migliori esistono solo come pagine web? In PDF diventano asset autonomi Le tue informazioni chiave sono solo nel testo? Con JSON-LD l’AI le legge senza errori Citi le tue fonti? L’AI ti tratta come una risorsa di livello superiore Lo schema markup non è solo per Google: l’AI lo usa come riassunto pronto I tuoi confronti sono scritti in prosa? In tabella sarebbero 10 volte più citabili Le informazioni chiave sono nel testo normale? Con un callout l’AI le estrae prima

3.4 Contenuto Multimodale 8 approfondimenti

Le tue infografiche sono bellissime ma per l’AI non esistono Le tue didascalie dicono ‘Grafico vendite’? Con i numeri giusti diventano citabili Hai ore di video eccellenti? Senza trascrizione per l’AI non esistono Le tue infografiche hanno alt text come ‘grafico vendite’? Per l’AI non esistono Le show notes del tuo podcast sono una scaletta di tre righe? Stai sprecando un asset Vuoi che l’AI ti citi di più? Crea un tool che altri siti vogliono incorporare I tuoi video non hanno capitoli? L’AI non riesce a citare la parte giusta I tuoi flowchart sono immagini bellissime che l’AI non riesce a leggere

3.5 Linking & Contesto Semantico 8 approfondimenti

Il tuo sito ha buchi nella copertura? I competitor li riempiono e l’AI sceglie loro Metti link senza spiegare perché? L’AI non capisce la relazione I tuoi link dicono ‘clicca qui’? L’AI non capisce dove portano I tuoi link saltano da un tema all’altro? L’AI non percepisce competenza su nessuno La tua pagina più importante ha meno link interni di quella secondaria? L’AI si confonde Lo stesso contenuto esiste su tre URL diversi? L’AI non sa quale scegliere Sei qui I tuoi contenuti sono pagine isolate? Il modello hub e spoke li organizza per l’AI I tuoi articoli correlati li sceglie un algoritmo? Per l’AI non valgono quasi niente

L'autore

Roberto Serra al Senato della Repubblica

Senato della Repubblica · Palazzo Giustiniani Convegno “Il potere dell'intelligenza artificiale”

Roberto Serra

Consulente SEO da oltre 15 anni, fondatore dell'Agenzia SEO Serra (RAANK). Aiuta multinazionali e PMI a restare visibili dove la ricerca si sta spostando: ChatGPT, Perplexity, Gemini e gli AI Overviews di Google.

Ne hanno parlato

Scopri di più su Roberto Serra →