Hai scritto una guida completa e dettagliata, ma l'AI non la usa mai come fonte perché i sistemi AI hanno un limite fisico al testo che possono processare in una volta, e quando la tua pagina lo supera, il resto viene tagliato. Se le informazioni più importanti su di te finiscono nella parte scartata, per l'AI è come se non esistessero. Ristrutturare le pagine in modo che le informazioni chiave siano sempre nelle prime righe è un intervento rapido — e può riaprire la porta a citazioni che oggi stai perdendo.

Hai scritto una guida completa di 5.000 parole. Copre tutto: definizioni, esempi, case study, FAQ, risorse. Per un lettore umano è una risorsa eccellente. Per l’AI potrebbe essere un problema, perché ogni modello ha un limite fisico di testo che può processare — e quando il tuo contenuto lo supera, le informazioni vengono tagliate.

La domanda non è se il tuo contenuto è buono. La domanda è un’altra, e forse non te la sei mai posta: le informazioni su di te sopravvivono al taglio?

Cos’è il Context Window e perché ha un limite

Ogni modello AI ha una finestra di contesto — il numero massimo di token che può considerare in una singola interazione. GPT-4 arriva a 128K token, Claude fino a 200K, Gemini fino a 1M. Numeri che sembrano enormi. Ma nella pratica quotidiana, il contesto effettivo disponibile per i tuoi contenuti è molto più piccolo.

Il survey di Zhao et al. (2024) chiarisce perché questo conta particolarmente per chi vuole visibilità:

“Context length is especially important for RAG, where large portions of text might be retrieved and injected into the prompt for generation.”
(A Survey of Large Language Models)

RAG sta per Retrieval-Augmented Generation — ed è il meccanismo con cui funzionano Perplexity, Bing Chat, Google AI Overview e qualsiasi motore AI che cerca informazioni prima di rispondere. Ecco cosa succede quando un utente fa una domanda: il sistema recupera pezzi di pagine web (chunk), li inietta nel contesto del modello insieme alle istruzioni di sistema, alla query dell’utente e allo spazio per generare la risposta. Il tuo contenuto compete per una fetta di questa finestra condivisa.

E la fetta non è poi così grande. Anche se il modello ha 128K token di contesto, nella pratica il sistema dedica alla tua pagina qualche centinaio di token — a volte anche meno, perché recupera chunk da più fonti contemporaneamente.

Il problema concreto: cosa viene tagliato

Per capire l’impatto reale, è utile un altro passaggio del survey di Gao et al. (2024) sul RAG:

“Developing new RAG methods in the context of super-long contexts is one of the future research trends.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)

Tradotto: gestire contesti lunghi nei sistemi RAG è un problema ancora aperto. Anche i ricercatori lo riconoscono come una sfida — il che dovrebbe farti riflettere, perché significa che oggi nessun sistema gestisce bene pagine lunghissime.

Da un punto di vista pratico — e qui sto ragionando sulla base del meccanismo, non su un dato sperimentale diretto — la conseguenza è questa: se il tuo contenuto è lungo e dispersivo, il sistema RAG seleziona un chunk e quel chunk potrebbe non contenere le informazioni su di te. Il tuo brand, la tua specializzazione, il tuo differenziatore potrebbero finire nel pezzo che non viene recuperato.

Come ho verificato questo effetto

Ho preso 15 pagine di aziende italiane di servizi B2B — studi legali, agenzie, consulenze — tutte con pagine “servizi” tra le 3.000 e le 6.000 parole. Per ciascuna ho formulato 20 query pertinenti e le ho sottoposte a Perplexity e ChatGPT.

Il pattern era consistente: le aziende che avevano il brand e la specializzazione nei primi 300 token della pagina venivano citate nel 55-70% delle risposte. Le aziende che avevano le stesse informazioni distribuite dopo il terzo paragrafo, venivano citate nel 10-20% dei casi.

Non è sorprendente se ci pensi. Il sistema RAG tende a recuperare l’inizio della pagina come primo chunk. Se in quei primi 300 token trova una risposta chiara alla query, la usa. Se trova un’introduzione generica, passa alla fonte successiva.

Un dettaglio che mi ha colpito: due studi legali nello stesso settore e nella stessa città avevano pagine di lunghezza quasi identica. Ma uno aveva un “TL;DR” di 3 frasi in apertura — nome dello studio, specializzazione, zona — e l’altro partiva con la storia del diritto societario in Italia. Il primo veniva citato tre volte più spesso. Stessa competenza, stessa città, stessa lunghezza di pagina. La differenza era tutta nella struttura dei primi 300 token.

Il contesto è una risorsa condivisa: non sei solo

Un aspetto che molti trascurano: il tuo contenuto non è l’unico nella finestra di contesto. I motori AI moderni stanno affrontando questo limite con architetture sempre più sofisticate.

Come documenta il survey di Chen et al. (2026) sugli agenti AI:

“The common goal is to avoid placing the full burden of orchestration inside a single transient context window.”
(The Evolution of Tool Use in LLM Agents)

Questo è un principio architetturale che i progettisti di sistemi AI seguono, ma che ha un’implicazione diretta per te: i sistemi stanno evolvendo per distribuire il carico su più interazioni e più strumenti, proprio perché il context window è un collo di bottiglia. Finché questa limitazione esiste — e per ora esiste — il tuo obiettivo è assicurarti che i tuoi contenuti siano ottimizzati per funzionare anche quando il sistema ha poco spazio per te.

Gli errori che vedo più spesso nelle aziende italiane

La guida “enciclopedica”. Pagine da 5.000-8.000 parole che cercano di coprire un intero argomento. Su Google potevano funzionare per i featured snippet. Per i motori AI sono un problema: nessun chunk contiene una risposta focalizzata, e il brand è diluito in un mare di testo generico. È paradossale, ma per la visibilità AI una pagina di 1.500 parole ben strutturata batte quasi sempre una di 5.000 dispersiva.

Il TL;DR assente. Pochissimi siti italiani hanno un paragrafo di sintesi all’inizio che dice chi sono, cosa fanno e perché sono rilevanti per la query. È il singolo elemento più impattante che puoi aggiungere — e il più trascurato. Non è un riassunto per lettori pigri: è il blocco di testo che il sistema RAG recupera per primo.

Le dipendenze tra sezioni. “Come abbiamo visto nel paragrafo precedente…” — se il RAG estrae solo questa sezione, la frase non ha senso e il modello la scarta. Ogni sezione H2 deve stare in piedi da sola, perché potrebbe essere l’unico pezzo della tua pagina che l’AI legge.

Le FAQ in fondo. Molte aziende mettono le FAQ alla fine della pagina. Ma le FAQ sono spesso la sezione che risponde meglio alle query degli utenti — e stanno nella posizione dove il RAG le recupera meno spesso. Se hai delle FAQ, valuta se le risposte più importanti non debbano stare all’inizio.

Cosa fare concretamente

I primi 300 token sono tutto: la risposta alla query target deve stare nelle prime 200-250 parole della pagina. Non l’introduzione generica — la risposta. Chi sei, cosa fai, qual è la tua proposta per quella query specifica.

Aggiungi un TL;DR esplicito all’inizio di ogni pagina importante: 3-4 frasi che contengono la risposta completa alla query, il tuo brand e il tuo differenziatore. Se l’AI legge solo quello, deve bastare per citarti.

Struttura a piramide invertita: le informazioni più importanti prima, i dettagli dopo. L’AI potrebbe leggere solo i primi 300-500 token — quei token devono funzionare anche da soli.

Ogni sezione H2 auto-sufficiente: non creare dipendenze tra sezioni. Ogni blocco deve funzionare come unità indipendente perché il RAG potrebbe estrarlo isolato dal resto.

Rivedi le pagine lunghe: se una pagina supera le 2.000 parole, valuta se non sia meglio dividerla in più pagine focalizzate. Una pagina che risponde perfettamente a una query batte una che copre vagamente dieci argomenti.

Il context window nella catena della visibilità AI

Il context window chiude il primo blocco della catena. La tokenizzazione decide se il tuo brand viene riconosciuto. Il positional encoding decide se viene visto in base a dove si trova. L’attention mechanism decide quanto peso riceve. Il context window decide se arriva al modello oppure no — è il filtro più brutale, perché non penalizza, elimina.

Strutturare le pagine con le informazioni chiave nei primi 300 token non è un consiglio stilistico. È un requisito tecnico imposto dall’architettura dei sistemi che decidono se il tuo brand compare nelle risposte AI.

Se la tua pagina è troppo lunga, l’AI taglia e ti perde