Il tuo sito usa heading multipli H1, H2 usati come grassetti decorativi e tabelle costruite con div e CSS? Per un utente non cambia nulla, per l'AI è rumore. I modelli parsano la struttura HTML per capire la gerarchia del contenuto — heading corretti, tabelle con tag semantici, liste ordinate vengono processati con meno errori e maggiore precisione. Un HTML caotico non abbassa il tuo ranking, fa perdere informazioni strutturali che il modello usa per decidere cosa estrarre e citare. Un audit del markup semantico si fa in una mattina. Ti spiego quali sono i punti critici da correggere e come intervenire con priorità.
Sai qual e il primo test che faccio quando analizzo un sito che non compare nelle risposte AI? Non guardo i contenuti. Non guardo i backlink. Apro il codice sorgente e guardo la struttura HTML. E nella maggior parte dei casi, trovo lo stesso problema: heading che saltano dal titolo principale a un sottotitolo di terzo livello, sezioni senza landmark, blocchi di contenuto che galleggiano nel markup senza nessuna relazione gerarchica tra loro.
Il punto e che per un lettore umano, la pagina sembra perfetta. Il design e pulito, i font sono giusti, il testo scorre bene. Ma l’AI non vede il design. Vede il codice. E se il codice non ha una struttura semantica coerente, il contenuto perde la sua gerarchia — e un contenuto senza gerarchia e un contenuto che l’AI fa più fatica a processare, spezzare in chunk utili e restituire come risposta.
Il markup che l’AI legge davvero
Quando parlo di markup semantico non parlo di estetica del codice o di best practice per sviluppatori pignoli. Parlo del modo in cui un sistema RAG — quello che alimenta le risposte di ChatGPT, Perplexity, Gemini — interpreta la struttura della tua pagina per decidere cosa estrarre.
I sistemi RAG convertono le pagine in testo e poi le spezzano in chunk. Ma non tagliano a caso: usano i segnali strutturali del documento per capire dove finisce un concetto e dove ne inizia un altro. I titoli di sezione sono i segnali più forti. Un heading gerarchico corretto — titolo principale, sottosezioni, sotto-sottosezioni — crea una mappa che il sistema usa per isolare blocchi auto-contenuti di informazione.
Volpini et al. nel 2026 hanno definito con precisione il vantaggio delle pagine con struttura semantica ricca:
“Enhanced pages transform opaque entity URIs into readable, structured information by resolving linked relationships and presenting them as human-readable content.” — Volpini et al., 2026
“Readable, structured information” — e la chiave. Le pagine che trasformano informazioni opache in contenuto leggibile e strutturato sono quelle che i sistemi AI riescono a processare con meno ambiguità. E la struttura semantica HTML e il primo livello di questa trasformazione: senza di essa, il contenuto e testo piatto, indifferenziato, senza punti di ancoraggio per il retrieval.
Perché il JSON-LD non basta
Se hai letto il mio articolo sui dati strutturati, sai già che il JSON-LD ha un paradosso: funziona per i parser di Google e Bing, ma non produce benefici misurabili nei sistemi RAG. Lo stesso paper di Volpini et al. lo dice in modo esplicito:
“JSON-LD markup remains valuable for search engines with dedicated parsers (Google, Bing), but it provides no measurable benefit in RAG-based systems that treat pages as flat text.” — Volpini et al., 2026
Ecco perché il markup semantico HTML diventa fondamentale. Il JSON-LD vive nell’head della pagina, invisibile al testo che il RAG processa. Il markup semantico, invece, e dentro il testo: sono gli heading che danno gerarchia, i tag `
La differenza tra una pagina con markup semantico e una senza e la differenza tra un libro con indice e capitoli e un muro di testo senza interruzioni. Entrambi contengono le stesse parole. Ma uno e navigabile, l’altro no.
Il dato che cambia la prospettiva
Quando Volpini et al. hanno confrontato le pagine con struttura semantica ricca (le “enhanced pages”) rispetto a quelle con il solo JSON-LD, il risultato e stato netto:
“Enhanced pages exposed 2.4x more discoverable links than JSON-LD pages (102.2 vs. 41.9).” — Volpini et al., 2026
2.4 volte più link scopribili. Questo non significa solo “più link nella pagina” — significa che il sistema riesce a scoprire e seguire 2.4 volte più connessioni quando la struttura HTML e semanticamente ricca. Le relazioni tra entita, i collegamenti tra concetti, i riferimenti incrociati diventano accessibili perché la struttura li rende espliciti.
In termini pratici: se la tua pagina ha heading gerarchici corretti, landmark che delimitano le sezioni, attributi aria dove servono per chiarire il ruolo dei componenti, il sistema AI riesce a estrarre più informazioni utili dalla stessa quantità di contenuto. Non perché il contenuto sia diverso — perché la struttura lo rende leggibile.
Gli errori che vedo più spesso
Dopo aver analizzato centinaia di siti, i pattern sbagliati si ripetono. Il primo e l’heading che salta livelli: dal titolo principale si passa direttamente a un heading di terzo livello perché “visivamente il font era troppo grande”. Il problema e che la scelta dell’heading non dovrebbe dipendere dal design — per quello ci sono i CSS. L’heading definisce la gerarchia logica del documento, e se salta un livello, il sistema perde un gradino nella struttura.
Il secondo errore e usare `