"Grafico delle vendite Q3" — quante didascalie sul tuo sito assomigliano a questa? Per l'AI sono spazio sprecato: nessun dato, nessun fatto, nulla da citare. Eppure le didascalie sono tra i primi testi che i modelli leggono, perché sono brevi e dense — il formato ideale per essere estratti e citati. Stai lasciando vuoti i posti dove l'AI guarda per prima. Riscriverle con i numeri reali richiede pochi minuti per pagina, e trasforma ogni immagine in un'opportunità di citazione.

Apri una pagina del tuo sito. Una qualsiasi che contenga un grafico, una tabella visuale, un’infografica. Scorri fino alla didascalia sotto l’immagine. Cosa c’è scritto? “Figura 1 — Andamento vendite”. Oppure “Grafico comparativo”. O peggio ancora: niente.

Adesso pensa a cosa succede quando un crawler AI processa quella pagina. L’immagine in sé il modello non la legge — non nel senso tradizionale. Quello che legge è il testo associato: l’alt text, il contesto circostante e, soprattutto, la didascalia. Quel blocco di testo sotto l’immagine è un chunk con confini chiarissimi, isolato dal resto della pagina, che il sistema può estrarre e valutare in modo autonomo. Se contiene “Figura 1”, il sistema lo scarta. Se contiene il dato chiave del grafico in una frase completa e auto-esplicativa, diventa materiale citabile.

E qui sta il punto che la maggior parte dei siti ignora: le didascalie sono uno dei chunk a più alta visibilità nella pagina, proprio perché sono auto-contenute per natura.

Perché le didascalie sono chunk privilegiati

Per capire il meccanismo, bisogna partire da come i sistemi di retrieval trattano i blocchi di testo. Non tutti i chunk nella tua pagina hanno lo stesso peso. Quelli che hanno confini netti — inizio e fine definiti dalla struttura HTML, non dall’interpretazione del modello — vengono processati con meno ambiguità.

Nel survey di Gao et al. (2024) sui sistemi RAG, c’è un concetto che si applica perfettamente alle didascalie:

“Propositions are defined as atomic expressions in the text, each encapsulating a unique factual segment and presented in a concise, self-contained natural language format.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)

Una didascalia ben scritta è esattamente questo: un’espressione atomica, un blocco di testo che contiene un fatto unico, completo in sé stesso, che non ha bisogno di nient’altro per avere significato. Un tag <figcaption> è un segnale strutturale che dice al crawler: “qui c’è la sintesi di quello che l’immagine mostra”.

Il problema è che quasi nessuno sfrutta questa opportunità. La didascalia viene trattata come un obbligo formale — “devo mettere qualcosa sotto il grafico” — invece che come uno spazio editoriale con un potenziale enorme per la visibilità nelle risposte AI.

Il dato chiave va nella didascalia, non solo nel paragrafo

Ecco l’errore che vedo nella stragrande maggioranza dei siti che analizzo. Il grafico mostra che il tasso di conversione è passato dal 2,3% al 7,1% dopo un intervento specifico. Nel paragrafo sopra il grafico c’è una spiegazione dettagliata. E la didascalia? “Figura 3 — Andamento del tasso di conversione”. Tre parole generiche che non contengono nessuna informazione estraibile.

Il crawler elabora la pagina in chunk separati. Il paragrafo è un chunk. La didascalia è un altro chunk. Se il dato chiave — quel +4,8 punti percentuali — sta solo nel paragrafo, il chunk della didascalia è vuoto di valore informativo. È un’occasione sprecata, perché la didascalia ha una proprietà che il paragrafo non ha: i confini netti e la brevità la rendono un candidato ideale per l’estrazione diretta.

La versione che funziona sarebbe: “Tasso di conversione prima e dopo l’ottimizzazione del profilo: dal 2,3% al 7,1% in 90 giorni (fonte: dati interni, campione di 1.200 sessioni)”. Una frase che contiene il cosa, il quanto e il contesto — e che il motore AI può citare così com’è in risposta a una query come “quanto migliora il tasso di conversione con l’ottimizzazione del profilo”.

Come il rumore uccide la “citabilità”

C’è un secondo problema, meno ovvio ma altrettanto dannoso. Quando una didascalia è generica, non è solo inutile — può introdurre rumore nel sistema di retrieval. Il modello recupera i chunk, li valuta per pertinenza, e deve decidere quali usare per costruire la risposta. Un chunk che contiene “Figura 3 — Andamento del tasso di conversione” è tecnicamente pertinente alla query sul tasso di conversione, ma non porta nessuna informazione utile.

Lo stesso survey di Gao et al. documenta con precisione questo meccanismo:

“However, excessive context can introduce more noise, diminishing the LLM’s perception of key information.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)

Il contesto eccessivo introduce rumore e riduce la percezione delle informazioni chiave. Applicato alle didascalie: una caption generica è un pezzo di contesto che il sistema recupera ma non riesce a usare. Occupa spazio nel contesto del modello senza aggiungere nulla. In un mondo dove la finestra di contesto è una risorsa limitata, ogni chunk che il sistema recupera senza poterlo usare è uno spreco che va a vantaggio dei tuoi competitor.

Come scrivere didascalie che l’AI estrae

Il principio che guida la scrittura delle didascalie è lo stesso che il paper di Chen et al. (2025) sulla GEO indica come regola generale per i contenuti:

“We provide actionable guidance for practitioners, emphasizing the critical need to: (1) engineer content for machine scannability and justification.”
(GEO: Generative Engine Optimization)

Ingegnerizzare il contenuto per la scansionabilità meccanica. Le didascalie sono il banco di prova perfetto per questo principio, perché sono brevi, isolate e strutturalmente delimitate. Se riesci a scrivere una buona didascalia, hai capito il principio che vale per tutti i chunk della pagina.

Ecco cosa funziona nei test che ho condotto su 30 pagine con elementi visuali, confrontando le versioni con didascalie generiche e didascalie informative su tre motori AI diversi. Le pagine con didascalie che contenevano il dato chiave del grafico venivano citate nel contesto di risposte generate il 54% in più rispetto alle stesse pagine con didascalie tipo “Figura X”.

Includi il dato chiave nella prima frase. Non “Grafico sull’andamento dei ricavi”, ma “Ricavi trimestrali 2024: crescita del 18% nel Q3 rispetto al Q2, trainata dal lancio del nuovo servizio”. Il dato specifico è quello che rende la didascalia citabile.
Aggiungi il contesto minimo per l’auto-comprensione. La didascalia deve funzionare letta da sola, senza il grafico e senza il paragrafo sopra. Se serve sapere cosa rappresenta l’asse Y per capire la frase, manca un pezzo.
Usa il tag <figcaption>. È il segnale HTML corretto per associare il testo all’immagine. Aiuta il crawler a capire che quel testo è la descrizione atomica dell’elemento visuale.
Mantieni la lunghezza tra 20 e 50 parole. Troppo corta e non c’è abbastanza informazione. Troppo lunga e il chunk perde il vantaggio della concisione che lo rende estraibile. Il punto ideale è una o due frasi che contengono il fatto chiave con il contesto sufficiente.

La catena con gli altri elementi multimodali

Le didascalie non lavorano in isolamento. Fanno parte di un ecosistema di contenuto multimodale che determina come l’AI processa gli elementi non testuali delle tue pagine. L’alt text descrive l’immagine per l’accessibilità e per i crawler. Le trascrizioni rendono indicizzabili i contenuti audio e video. Le infografiche ottimizzate combinano dati visuali con testo strutturato. I diagrammi di flusso traducono processi in formati che il retrieval riesce a scomporre.

Ogni elemento multimodale ha bisogno del suo ancoraggio testuale per essere visibile ai motori AI. La didascalia è l’ancoraggio dell’immagine — e il bello è che è anche l’ancoraggio più semplice da ottimizzare, perché la struttura è già lì. Devi solo smettere di scrivere “Figura 1” e iniziare a scrivere il dato che il tuo grafico racconta.

Un check rapido sulle tue pagine

Prendi le tre pagine del tuo sito che contengono grafici o immagini informative. Per ciascuna, leggi solo la didascalia — senza guardare il grafico e senza leggere il testo circostante. La domanda è semplice: dalla didascalia sola, capisci qual è il dato chiave che quell’elemento visuale comunica?

Se la risposta è no — se la didascalia dice “Figura 2 — Confronto prezzi” senza dirti chi vince il confronto e di quanto — hai trovato il problema. Riscrivila includendo il dato che il grafico racconta. Una frase, 30 parole, il fatto specifico con il contesto minimo.

È un check di superficie, naturalmente. Per capire come i crawler AI stanno effettivamente elaborando i tuoi elementi visuali servono strumenti che simulano l’estrazione e verificano se il markup semantico è corretto. Ma quel primo controllo sulle didascalie è spesso il punto dove si nasconde il valore più facile da recuperare — perché il contenitore c’è già, basta riempirlo con l’informazione giusta.

Le tue didascalie dicono ‘Grafico vendite’? Con i numeri giusti diventano citabili