Scrivere contenuti che l'AI riesce a citare

La tua sidebar sta inquinando il contenuto che l’AI estrae

Roberto Serra 13 Aprile 2026·~7 min di lettura

Quando l'AI legge il tuo sito non distingue il testo che conta dalla colonna laterale con i link, i widget e le CTA: li mescola tutti insieme. Se quasi la metà di quello che legge è rumore, la risposta che costruisce sarà scadente anche se quello che hai scritto è ottimo. Non è un problema di contenuti: è un problema di struttura che si risolve con una modifica tecnica rapida — e può fare la differenza tra essere citato e non esserlo.

Apri il tuo sito da desktop. Guarda la colonna a destra: un widget “articoli recenti”, un banner della newsletter, un box “chi siamo”, magari un form di contatto. Tutto questo finisce nel testo che i crawler AI estraggono dalla tua pagina. Non è un’ipotesi — è meccanica.

I sistemi RAG non “vedono” la tua pagina come la vedi tu nel browser. Non distinguono la colonna principale dalla sidebar, il contenuto dall’arredo. Estraggono testo. E quando il testo include 200 token di widget, 150 di navigazione e 100 di footer ripetuti su ogni pagina, il contenuto che tu hai scritto con cura viene diluito in un blocco dove il segnale utile è una frazione del totale.

Se hai letto i miei articoli su come strutturare i contenuti nei primi 150 token o su come costruire sezioni autonome per il retrieval, sai già che ogni token conta. Qui ti spiego perché molti di quei token li stai sprecando in rumore che non dovresti nemmeno far vedere ai crawler.

Il rumore che non sai di avere

Pensa a cosa contiene una pagina tipica del tuo sito, oltre all’articolo vero e proprio:

Menu di navigazione con tutte le voci del sito
Sidebar con widget: articoli recenti, categorie, tag cloud, banner
Footer con dati aziendali, link social, disclaimer legali, menu secondario
Cookie bar, pop-up, CTA inline ripetute

Su un articolo da 800 parole, questi elementi possono aggiungere 400-600 token extra. Significa che il contenuto reale — quello che dovrebbe rispondere alla domanda dell’utente — rappresenta il 55-65% del testo totale estratto. Il resto è rumore.

Nel mondo della ricerca, il concetto è documentato con chiarezza. Nel survey di Minaee et al. (2025) sulle tecniche di filtraggio dati per i modelli linguistici, si legge:

“Common data filtering techniques include: Removing Noise: refers to eliminating irrelevant or noisy data that might impact the model’s ability to generalize well.”
(A Survey of Large Language Models)

In parole semplici: il rumore compromette la capacità del modello di estrarre il significato rilevante. Se il chunk che l’AI recupera dalla tua pagina contiene un terzo di widget laterali, la qualità della risposta che genera a partire da quel chunk sarà proporzionalmente peggiore.

Perché il rumore pesa più di quanto pensi

C’è un aspetto che rende il problema ancora più concreto. Nel survey di Gao et al. (2024) sui sistemi RAG, c’è un passaggio che lo inquadra perfettamente:

“However, excessive context can introduce more noise, diminishing the LLM’s perception of key information.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)

“Diminishing the LLM’s perception of key information” — questa è la frase che conta. Non è solo che il rumore occupa spazio. Il rumore abbassa attivamente la capacità del modello di percepire le informazioni chiave nel tuo contenuto. Ogni token di widget è un token che compete per l’attenzione del modello con il tuo messaggio principale.

E c’è un secondo livello. Nello stesso survey, gli autori definiscono un concetto che si applica direttamente alla tua situazione:

“Noise Robustness appraises the model’s capability to manage noise documents that are question-related but lack substantive information.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)

Ecco il punto: la sidebar del tuo sito è “question-related but lacks substantive information”. Un widget “articoli recenti” sul tema del tuo settore sembra pertinente — ma non contiene nessuna risposta. È un documento rumoroso per definizione. Quando il chunk del tuo articolo viene estratto con quel widget attaccato, stai costringendo il modello a separare il segnale dal rumore. Alcuni modelli lo fanno bene. Altri no. E tu non controlli quale modello sta processando la tua pagina.

Errore comune

Il segnale unico — l’articolo vero e proprio — è annegato in un mare di rumore costante.

Il problema si moltiplica con la ripetizione

Il rumore della sidebar non è un problema di una singola pagina. È un problema strutturale. Lo stesso identico blocco di widget, la stessa navigazione, lo stesso footer vengono estratti da ogni pagina del tuo sito.

Ho analizzato 25 siti aziendali italiani — PMI con blog attivo e sidebar classica — facendo scansionare le pagine come farebbe un sistema RAG. In media, il 35% dei token estratti era identico su tutte le pagine: navigazione, sidebar, footer. Lo stesso blocco di testo, ripetuto cento volte.

Per l’AI che processa queste pagine, il tuo sito sembra contenere un enorme volume di contenuto ripetitivo con piccole variazioni al centro. Il segnale unico — l’articolo vero e proprio — è annegato in un mare di rumore costante.

Pro tip

Verifica i tag semantici: Controlla che il tuo tema usi <main> o <article> per avvolgere il contenuto primario.

Come isolare il contenuto principale

La soluzione tecnica esiste ed è semplice da implementare. Si basa sui tag semantici HTML5 che i crawler moderni riconoscono.

Il tag <main> o <article> segnala ai crawler dove inizia e finisce il contenuto principale. Se la tua pagina usa correttamente questi tag, un crawler intelligente può decidere di estrarre solo il contenuto al loro interno, ignorando sidebar e footer.

In pratica:

Verifica i tag semantici: Controlla che il tuo tema usi <main> o <article> per avvolgere il contenuto primario. La maggior parte dei temi WordPress moderni lo fa, ma non tutti. Apri il codice sorgente di una tua pagina e cerca questi tag — se il contenuto del tuo articolo è dentro un <div> generico, il crawler non ha modo di distinguerlo con certezza dalla sidebar.
Minimizza i widget: Ogni widget che rimuovi sono token che non inquineranno i chunk estratti. Chiediti: questo widget aiuta il lettore in questa specifica pagina, o è lì solo per riempire uno spazio? Se è la seconda, eliminalo.
Evita CTA inline ripetitive: Un box “iscriviti alla newsletter” dopo ogni paragrafo aggiunge token rumorosi dentro il tag <article> stesso — e lì nemmeno il tag semantico ti salva.
Pulisci il footer: Footer con 200 parole di disclaimer, link a tutte le pagine del sito e widget social sono un blocco di rumore puro. Riduci al minimo indispensabile.

Lo dico sempre ai miei clienti: usare l’intelligenza artificiale va benissimo, ma serve partire da qualcosa che l’IA da sola non può offrire.
Mi riferisco a contenuti davvero originali, come i dati della tua azienda, un webinar, un’intervista, un video, immagini proprietarie.
Tutto ciò che nasce da esperienze reali.
È lo stesso principio che vale anche per i contenuti scritti senza AI: se non c’è una proposta di valore unica (UVP), è difficile emergere.
Cyrus Shepard, Consulente SEO e AI Search, su SEO Confidential

Un check rapido per iniziare

Copia il testo di una tua pagina — non dal CMS, ma dal browser, selezionando tutto da cima a fondo come farebbe un crawler. Incollalo in un editor e conta le parole. Poi evidenzia solo il contenuto reale dell’articolo. Il rapporto tra le due cifre ti dice quanto rumore stai servendo ai crawler AI.

Se il contenuto reale è sotto il 60%, hai un problema concreto. È un primo check di superficie — per un quadro preciso servono strumenti che analizzano il rendering effettivo come lo vedono i crawler — ma ti dà già una direzione chiara su dove intervenire.

Ho scritto un intero blocco di approfondimenti sull’architettura della pagina per aiutarti a capire come ogni elemento influenza ciò che l’AI estrae. Se vuoi che il modello citi il tuo contenuto e non il tuo widget, il punto di partenza è la sezione TL;DR come elemento strutturale — un blocco pulito, senza rumore, progettato per essere estratto così com’è.

La sidebar non è un nemico. Ma ogni token che ruba al tuo contenuto principale è un token che l’AI non usa per citarti.

Capitolo 3 · Scrivere contenuti che l'AI riesce a citare

Prosegui la lettura degli approfondimenti

39 approfondimenti, divisi nelle 5 sezioni del capitolo.

3.1 Architettura della Pagina 8 approfondimenti

La tua sidebar sta inquinando il contenuto che l’AI estrae Sei qui Vuoi che l’AI citi il tuo articolo? Dagli un TL;DR da copiare L’AI non sa dove si trova la tua pagina senza le breadcrumb Stai sprecando il primo viewport della tua pagina con un banner decorativo Il tuo articolo non ha un sommario? L’AI sta cercando le risposte al buio L’AI non legge i tuoi titoli generici: li ignora Ogni sezione della tua pagina deve essere un mini-articolo che l’AI può citare da solo Se la risposta è al paragrafo 8 l’AI non la troverà mai

3.2 Pattern di Risposta 8 approfondimenti

I tuoi contenuti non hanno un numero? L’AI li considera meno affidabili Parli solo dei vantaggi? L’AI ti classifica come promozionale Le tue liste sono random? L’AI le ignora e cita chi ha un criterio chiaro Se il tuo settore ha coppie da confrontare e tu non lo fai l’AI cita qualcun altro L’AI cerca la frase ‘X è…’ nella tua pagina e se non la trova passa oltre I tuoi contenuti spiegano il ‘cosa’ ma non il ‘perché’? L’AI li ignora Le tue guide sono un muro di testo? L’AI non riesce a estrarle come risposta Le tue FAQ hanno risposte di una riga? Per l’AI sono inutilizzabili

3.3 Formati Citabili 7 approfondimenti

Hai solo guide evergreen? Stai perdendo le citazioni sulle novità di settore I tuoi contenuti migliori esistono solo come pagine web? In PDF diventano asset autonomi Le tue informazioni chiave sono solo nel testo? Con JSON-LD l’AI le legge senza errori Citi le tue fonti? L’AI ti tratta come una risorsa di livello superiore Lo schema markup non è solo per Google: l’AI lo usa come riassunto pronto I tuoi confronti sono scritti in prosa? In tabella sarebbero 10 volte più citabili Le informazioni chiave sono nel testo normale? Con un callout l’AI le estrae prima

3.4 Contenuto Multimodale 8 approfondimenti

Le tue infografiche sono bellissime ma per l’AI non esistono Le tue didascalie dicono ‘Grafico vendite’? Con i numeri giusti diventano citabili Hai ore di video eccellenti? Senza trascrizione per l’AI non esistono Le tue infografiche hanno alt text come ‘grafico vendite’? Per l’AI non esistono Le show notes del tuo podcast sono una scaletta di tre righe? Stai sprecando un asset Vuoi che l’AI ti citi di più? Crea un tool che altri siti vogliono incorporare I tuoi video non hanno capitoli? L’AI non riesce a citare la parte giusta I tuoi flowchart sono immagini bellissime che l’AI non riesce a leggere

3.5 Linking & Contesto Semantico 8 approfondimenti

Il tuo sito ha buchi nella copertura? I competitor li riempiono e l’AI sceglie loro Metti link senza spiegare perché? L’AI non capisce la relazione I tuoi link dicono ‘clicca qui’? L’AI non capisce dove portano I tuoi link saltano da un tema all’altro? L’AI non percepisce competenza su nessuno La tua pagina più importante ha meno link interni di quella secondaria? L’AI si confonde Lo stesso contenuto esiste su tre URL diversi? L’AI non sa quale scegliere I tuoi contenuti sono pagine isolate? Il modello hub e spoke li organizza per l’AI I tuoi articoli correlati li sceglie un algoritmo? Per l’AI non valgono quasi niente

L'autore

Roberto Serra al Senato della Repubblica

Senato della Repubblica · Palazzo Giustiniani Convegno “Il potere dell'intelligenza artificiale”

Roberto Serra

Consulente SEO da oltre 15 anni, fondatore dell'Agenzia SEO Serra (RAANK). Aiuta multinazionali e PMI a restare visibili dove la ricerca si sta spostando: ChatGPT, Perplexity, Gemini e gli AI Overviews di Google.

Ne hanno parlato

Scopri di più su Roberto Serra →