Hai rifatto i contenuti in modo più discorsivo e naturale ma su Perplexity non esci ancora? Forse hai perso il matching con le keyword esatte. I motori AI cercano con due metodi in parallelo — parole esatte e significato — e il tuo contenuto deve funzionare per entrambi. Ti spiego come combinare keyword e contesto semantico nella stessa pagina.
Un cliente mi ha chiesto una cosa che sento spesso: “Ho rifatto tutti i contenuti del sito con un linguaggio più naturale, più discorsivo, come suggerite voi. Ma su Perplexity non esco ancora. Cosa sbaglio?”
Il problema era sottile. Aveva eliminato le keyword secche del vecchio SEO e scritto tutto in modo conversazionale. Il contenuto era più bello da leggere, più ricco semanticamente. Ma aveva perso il matching con le keyword esatte che gli utenti scrivono nelle query. E i sistemi RAG, a differenza di quanto si potrebbe pensare, usano entrambi i metodi di ricerca contemporaneamente.
La ricerca ibrida: due canali in parallelo
Come ti ho spiegato nell’articolo sul RAG, i sistemi come Perplexity cercano fonti nel web prima di rispondere. Quello che non ho ancora approfondito è come cercano — e la risposta è più interessante di quanto sembri.
Il survey di Gao et al. (2024) sul RAG descrive il meccanismo nella sezione dedicata al retrieval ibrido:
“Sparse and dense embedding approaches capture different relevance features and can benefit from each other by leveraging complementary relevance information. Sparse retrieval models can enhance the zero-shot retrieval capability of dense retrieval models and assist dense retrievers in handling queries containing rare entities, thereby improving robustness.”
(Retrieval-Augmented Generation for Large Language Models: A Survey)
In pratica funzionano due motori in parallelo:
BM25 (sparse) è un algoritmo di matching lessicale. Cerca le parole esatte della query nel tuo contenuto. Se l’utente cerca “consulente SEO Milano”, BM25 cerca pagine che contengono esattamente quelle parole. È veloce, preciso e particolarmente forte con entità rare — nomi di brand, termini tecnici di nicchia, nomi di città.
Ricerca densa (embedding) è quella di cui ti ho parlato nell’articolo sullo spazio vettoriale. Converte query e contenuto in vettori e misura la vicinanza di significato. “Consulente SEO Milano” e “esperto di visibilità organica zona Milano” sono lessicalmente diversi ma semanticamente vicini.
Il paper di Ma et al. (2024) sulla ricerca ibrida documenta come i due approcci vengono combinati nei sistemi moderni:
“Datasets are embedded using Bge/Gte models for dense and Splade/BM25 models for sparse.”
(Efficient and Effective Retrieval of Dense-Sparse Hybrid Vectors)
Il risultato finale è una lista di fonti classificata combinando i punteggi di entrambi — tipicamente con un peso del 50/50 o 60/40 a favore della semantica. Se il tuo contenuto manca in uno dei due canali, il punteggio combinato crolla.
Cosa significa per chi vuole farsi trovare
La conseguenza pratica è un requisito doppio che molti non soddisfano.
Scenario 1: hai le keyword ma non il contesto. Il tuo sito ripete “consulente SEO Milano” in ogni pagina, con la densità di keyword del 2015. BM25 ti trova. Ma la ricerca semantica ti classifica come contenuto sottile — poche varianti, poco contesto, poco valore aggiunto rispetto a un competitor che spiega lo stesso concetto in profondità.
Scenario 2: hai il contesto ma non le keyword. Il tuo sito parla di “strategie per migliorare la visibilità organica delle attività professionali nell’area metropolitana lombarda”. Semanticamente ricchissimo. Ma se l’utente scrive “consulente SEO Milano”, BM25 non ti trova perché quelle parole esatte non ci sono.
Ho analizzato questo su 20 pagine di servizi B2B, confrontando il punteggio BM25 (con un algoritmo locale) e il punteggio semantico (con un modello di embedding) rispetto a un set di 10 query reali per ciascuna pagina. Le pagine che avevano entrambi i segnali forti comparivano come fonti su Perplexity nel 60% dei casi. Le pagine forti solo su uno dei due canali: 20-25%. Le pagine deboli su entrambi: sotto il 5%.
La differenza tra 60% e 20% è enorme — ed è la differenza tra essere citati regolarmente e comparire ogni tanto per caso.
Il punto ottimale: keyword dentro, contesto intorno
La soluzione non è scegliere tra keyword e semantica. È combinarle nella stessa pagina, nella stessa sezione, spesso nella stessa frase.
Un esempio concreto. Invece di scrivere:
“Il nostro studio offre consulenza SEO a Milano.”
Scrivi:
“Il nostro studio offre consulenza SEO a Milano — aiutiamo aziende e professionisti a migliorare la visibilità organica sui motori di ricerca e nelle risposte AI, dalla strategia all’esecuzione.”
La prima versione ha la keyword esatta ma zero contesto semantico. La seconda ha la keyword esatta (“consulenza SEO a Milano”) E un contesto semantico ricco (“visibilità organica”, “motori di ricerca”, “risposte AI”, “strategia”, “esecuzione”) che copre varianti e sinonimi della stessa query.
Una frase così lavora su entrambi i canali contemporaneamente. BM25 la trova per la keyword esatta. La ricerca semantica la trova per il significato esteso. Il punteggio combinato è alto.
Le keyword che contano per BM25
Un aspetto che differenzia questo approccio dal SEO tradizionale: per BM25, le keyword che contano non sono le long-tail creative. Sono le parole precise che un utente scriverebbe in una query conversazionale a un motore AI.
Spesso sono più dirette di quello che pensi: “come scegliere un commercialista”, “miglior software gestionale per ristoranti”, “agenzia web Padova”. Il linguaggio delle query AI tende ad essere più naturale di quello delle ricerche Google — ma le parole chiave specifiche (il nome del servizio, la città, il tipo di attività) sono ancora lì e BM25 le cerca esattamente.
Dove trovare queste keyword: Google Search Console (le query reali), le People Also Ask, e soprattutto — fai attenzione — le query che scrivi tu stesso quando cerchi i competitor sui motori AI. Quelle sono le stesse query che i tuoi potenziali clienti stanno facendo.
Come verificare la copertura delle tue pagine
Prendi le 5 pagine più importanti del tuo sito e fai un doppio check:
Check lessicale: cerca nel testo le 5 keyword esatte più importanti per quella pagina. Ci sono? Quante volte? Sono nei punti strategici — titolo, primo paragrafo, heading, conclusione?
Check semantico: leggi il contenuto togliendo mentalmente le keyword esatte. Spiega comunque il concetto in modo completo? Usa sinonimi e varianti naturali? Un lettore che non conoscesse la keyword capirebbe lo stesso di cosa parla?
Questo doppio check ti dà una prima fotografia della situazione — è un punto di partenza, non un’analisi esaustiva. L’analisi completa richiede strumenti che misurano i punteggi BM25 e semantici in modo quantitativo, su un campione ampio di query reali. Ma anche solo con questo check manuale puoi capire se le tue pagine stanno lavorando su entrambi i canali o se ne stanno ignorando uno — e la differenza nei risultati, come ti dicevo, può essere da 20% a 60% di probabilità di comparire come fonte citata.
Una volta che il sistema ibrido ha recuperato le tue pagine, queste entrano nella fase successiva: il chunk retrieval, dove il sistema decide quale pezzo specifico della tua pagina usare, e poi il reranking, che riordina le fonti per qualità. Ne parlo nei prossimi articoli.