I crawler AI non separano il tuo contenuto dalla sidebar. Widget, footer, link di navigazione e CTA inline finiscono tutti nello stesso blocco — e diluiscono il segnale utile con token che non dicono niente. Se il 40% del tuo chunk è rumore laterale, la risposta che l'AI genera dal tuo contenuto sarà mediocre anche se il testo principale è ottimo. Non è un problema di scrittura: è un problema strutturale che si risolve con due tag HTML. Ti spiego quali e dove metterli.
Apri il tuo sito da desktop. Guarda la colonna a destra: un widget “articoli recenti”, un banner della newsletter, un box “chi siamo”, magari un form di contatto. Tutto questo finisce nel testo che i crawler AI estraggono dalla tua pagina. Non è un’ipotesi — è meccanica.
I sistemi RAG non “vedono” la tua pagina come la vedi tu nel browser. Non distinguono la colonna principale dalla sidebar, il contenuto dall’arredo. Estraggono testo. E quando il testo include 200 token di widget, 150 di navigazione e 100 di footer ripetuti su ogni pagina, il contenuto che tu hai scritto con cura viene diluito in un blocco dove il segnale utile è una frazione del totale.
Se hai letto i miei articoli su come strutturare i contenuti nei primi 150 token o su come costruire sezioni autonome per il retrieval, sai già che ogni token conta. Qui ti spiego perché molti di quei token li stai sprecando in rumore che non dovresti nemmeno far vedere ai crawler.
Il rumore che non sai di avere
Pensa a cosa contiene una pagina tipica del tuo sito, oltre all’articolo vero e proprio:
- Menu di navigazione con tutte le voci del sito
- Sidebar con widget: articoli recenti, categorie, tag cloud, banner
- Footer con dati aziendali, link social, disclaimer legali, menu secondario
- Cookie bar, pop-up, CTA inline ripetute
Su un articolo da 800 parole, questi elementi possono aggiungere 400-600 token extra. Significa che il contenuto reale — quello che dovrebbe rispondere alla domanda dell’utente — rappresenta il 55-65% del testo totale estratto. Il resto è rumore.
Nel mondo della ricerca, il concetto è documentato con chiarezza. Nel survey di Zhao et al. (2024) sulle tecniche di filtraggio dati per i modelli linguistici, si legge:
“Common data filtering techniques include: Removing Noise: refers to eliminating irrelevant or noisy data that might impact the model's ability to generalize well.”
(A Survey of Large Language Models)
In parole semplici: il rumore non è solo un fastidio estetico. Compromette la capacità del modello di estrarre il significato rilevante. Se il chunk che l’AI recupera dalla tua pagina contiene un terzo di widget laterali, la qualità della risposta che genera a partire da quel chunk sarà proporzionalmente peggiore.
Perché il rumore pesa più di quanto pensi
C’e un aspetto che rende il problema ancora più concreto. Nel survey di Gao et al. (2024) sui sistemi RAG, c’e un passaggio che lo inquadra perfettamente:
“However, excessive context can introduce more noise, diminishing the LLM's perception of key information.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)
“Diminishing the LLM’s perception of key information” — questa e la frase che conta. Non e solo che il rumore occupa spazio. Il rumore abbassa attivamente la capacità del modello di percepire le informazioni chiave nel tuo contenuto. Ogni token di widget e un token che compete per l’attenzione del modello con il tuo messaggio principale.
E c’e un secondo livello. Nello stesso survey, gli autori definiscono un concetto che si applica direttamente alla tua situazione:
“Noise Robustness appraises the model's capability to manage noise documents that are question-related but lack substantive information.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)
Ecco il punto: la sidebar del tuo sito e “question-related but lacks substantive information”. Un widget “articoli recenti” sul tema del tuo settore sembra pertinente — ma non contiene nessuna risposta. E un documento rumoroso per definizione. Quando il chunk del tuo articolo viene estratto con quel widget attaccato, stai costringendo il modello a separare il segnale dal rumore. Alcuni modelli lo fanno bene. Altri no. E tu non controlli quale modello sta processando la tua pagina.
Il problema si moltiplica con la ripetizione
Il rumore della sidebar non e un problema di una singola pagina. E un problema strutturale. Lo stesso identico blocco di widget, la stessa navigazione, lo stesso footer vengono estratti da ogni pagina del tuo sito.
Ho analizzato 25 siti aziendali italiani — PMI con blog attivo e sidebar classica — facendo crawlare le pagine come farebbe un sistema RAG. In media, il 35% dei token estratti era identico su tutte le pagine: navigazione, sidebar, footer. Lo stesso blocco di testo, ripetuto cento volte.
Per l’AI che processa queste pagine, il tuo sito sembra contenere un enorme volume di contenuto ripetitivo con piccole variazioni al centro. Il segnale unico — l’articolo vero e proprio — e annegato in un mare di rumore costante.
Come isolare il contenuto principale
La soluzione tecnica esiste ed e semplice da implementare. Si basa sui tag semantici HTML5 che i crawler moderni riconoscono.
Il tag `
In pratica:
- Verifica che il tuo tema usi `
` o ` per avvolgere il contenuto primario. La maggior parte dei temi WordPress moderni lo fa, ma non tutti. Apri il codice sorgente di una tua pagina e cerca questi tag — se il contenuto del tuo articolo e dentro un `` ` generico, il crawler non ha modo di distinguerlo dalla sidebar.- Minimizza i widget nella sidebar. Ogni widget che rimuovi sono token che non inquineranno i chunk estratti. Chiediti: questo widget aiuta il lettore in questa specifica pagina, o e li per riempire uno spazio? Se e la seconda, eliminalo.
- Evita CTA inline ripetitive nel corpo del testo. Un box “iscriviti alla newsletter” dopo ogni paragrafo aggiunge token rumorosi dentro il `
` stesso — e li nemmeno il tag semantico ti salva.
- Pulisci il footer. Footer con 200 parole di disclaimer, link a tutte le pagine del sito e widget social sono un blocco di rumore puro. Riduci al minimo indispensabile.
Un check rapido per iniziare
Copia il testo di una tua pagina — non dal CMS, ma dal browser, selezionando tutto da cima a fondo come farebbe un crawler. Incollalo in un editor e conta le parole. Poi evidenzia solo il contenuto reale dell’articolo. Il rapporto tra le due cifre ti dice quanto rumore stai servendo ai crawler AI.
Se il contenuto reale e sotto il 60%, hai un problema concreto. E un primo check di superficie — per un quadro preciso servono strumenti che analizzano il rendering effettivo come lo vedono i crawler — ma ti da già una direzione chiara su dove intervenire.
Ho scritto un intero blocco di approfondimenti sull’architettura della pagina per aiutarti a capire come ogni elemento della tua pagina influenza cosa l’AI estrae. Se vuoi che il modello citi il tuo contenuto e non il tuo widget, il punto di partenza e la sezione TL;DR come elemento strutturale — un blocco pulito, senza rumore, progettato per essere estratto così com’e.
La sidebar non e un nemico. Ma ogni token che ruba al tuo contenuto principale e un token che l’AI non usa per citarti.