Se il tuo brand compare nel tuo sito ma non accanto ai termini chiave del tuo settore, per l'AI l'associazione è debole — e quando deve consigliare qualcuno nel tuo campo, sceglie chi ha costruito quell'associazione meglio di te. Ti spiego come funziona il meccanismo di attenzione e come usarlo per rafforzare il collegamento tra il tuo nome e il tuo settore.
Il tuo contenuto ha 2.000 parole. L’AI non le pesa tutte allo stesso modo. Alcune ricevono un peso altissimo, altre vengono praticamente ignorate. Il meccanismo che decide questo peso si chiama attention, ed è il cuore di come i modelli AI selezionano le informazioni rilevanti da proporre nelle risposte.
Se capisci come funziona — e non è complicato — puoi costruire contenuti dove il tuo brand riceve sistematicamente più peso. Se lo ignori, mi spiace dirtelo, ma stai lasciando al caso la probabilità di essere citato.
Il meccanismo di attenzione: come l’AI pesa le parole
Il Transformer — l’architettura su cui girano GPT-4, Claude, Gemini — ha un componente centrale che nel mondo della ricerca si chiama self-attention. Il concetto è sorprendentemente intuitivo.
Il survey di Zhao et al. (2024) lo spiega bene:
“By applying self-attention to compute in parallel for every word in a sentence or document an 'attention score' to model the influence each word has on another, Transformers allow for much more parallelization than RNNs, which makes it possible to efficiently pre-train very big language models on large amounts of data.”
(A Survey of Large Language Models)
In pratica funziona così: per ogni parola del testo, il modello calcola un punteggio rispetto a tutte le altre parole. “Quanto è rilevante la parola A per capire il significato della parola B?” Le coppie di parole con relazione semantica forte ricevono punteggi alti e si influenzano a vicenda. Le parole in contesti irrilevanti ricevono punteggi bassi — per il modello è come se non ci fossero.
Nello stesso survey, gli autori lo definiscono in modo ancora più diretto:
“The heart of Transformer is the (self-)attention mechanism, which can capture long-term contextual information much more effectively than the recurrence and convolution mechanisms.”
(A Survey of Large Language Models)
“Long-term contextual information” è la chiave. Il meccanismo di attenzione non guarda solo le parole vicine — guarda le relazioni tra parole anche a distanza. Se il tuo brand e un termine di settore compaiono nella stessa pagina, anche a paragrafi di distanza, il self-attention calcola il loro punteggio reciproco.
Da qui la deduzione: co-occorrenze forti = più peso al tuo brand
Questo è un punto importante e voglio essere trasparente: quello che segue è una deduzione logica dal meccanismo documentato, non un fatto dimostrato da un esperimento specifico sulla visibilità brand.
Il ragionamento è questo. Se il meccanismo di attenzione assegna punteggi più alti alle coppie di parole con relazione semantica forte, e se il tuo brand compare sistematicamente accanto ai termini chiave del tuo settore — in pagine diverse, in contesti diversi, su fonti diverse — allora il modello costruisce un’associazione densa. Ogni volta che l’AI incontra quei termini di settore in una domanda dell’utente, il peso associato al tuo brand è più alto.
Se invece il tuo brand compare in contesti generici, isolati o sparsi su troppi argomenti, il segnale di attenzione è debole. L’AI non costruisce nessuna associazione utile e quando deve rispondere a una domanda nel tuo settore, non ti propone.
Da questo segue una regola operativa: la densità della co-occorrenza brand + termini di settore è più importante del volume di contenuti.
Un test su una nicchia reale
Ho analizzato due aziende concorrenti nel settore macchine per pasta fresca industriale — chiamiamole PastaLine e PastaItalia — e ho sottoposto ai principali motori AI (ChatGPT, Perplexity, Gemini) una batteria di 40 query legate al settore, riformulate in modi diversi.
PastaLine aveva 25 pagine dove il brand compariva sempre accanto a “macchine per pastificio”, “estrusori per pasta”, “linee di produzione pasta fresca”, “impastatrice industriale”. Ogni pagina creava una co-occorrenza brand + termine tecnico. Sul sito della fiera IPACK-IMA, PastaLine era listato nella categoria “macchinari per pasta”. Su una rivista di settore, un articolo citava “PastaLine tra i produttori di riferimento per estrusori”.
PastaItalia — che in realtà aveva più pagine in totale — usava il sito per parlare anche di ricette, fiere, sostenibilità, news aziendali, auguri di Natale. Il brand co-occorreva con “pasta” ma altrettanto con “sostenibilità”, “team building”, “eventi”. L’associazione era dispersa su troppi contesti.
Risultato su 40 query: PastaLine veniva citato nel 65% delle risposte, PastaItalia nel 15%. Una singola query a ChatGPT non prova nulla — i modelli hanno una componente stocastica e ogni risposta può variare. Ma su un campione ampio il pattern diventa chiaro, e in questo caso era netto.
La differenza non era nel volume di contenuti — era nella densità con cui il brand co-occorreva con i termini specifici del settore.
L’attention è multi-head: più dimensioni, più opportunità
Un dettaglio tecnico che ha implicazioni pratiche. L’attention nel Transformer non è un singolo calcolo — è multi-head, cioè viene eseguito in parallelo su dimensioni diverse. Ogni “testa” di attenzione cattura un tipo diverso di relazione: una testa potrebbe catturare relazioni sintattiche, un’altra relazioni semantiche, un’altra ancora relazioni tematiche.
Questo significa che non basta una sola dimensione di co-occorrenza. Se il tuo brand co-occorre con i termini di settore solo in un certo tipo di contesto (per esempio solo in pagine commerciali), stai lavorando su poche teste di attenzione. Se co-occorre anche in contesti editoriali, tecnici, di terze parti — stai attivando più teste, e il segnale complessivo è più forte.
Da questo segue che la strategia di co-occorrenza va estesa oltre il tuo sito: guest post, comunicati stampa, directory di settore, citazioni in articoli tecnici. Ogni contesto diverso attiva teste di attenzione diverse.
Gli errori che vedo più spesso
Il blog che parla di tutto. Ogni post che associa il brand a un contesto fuori settore — eventi aziendali, auguri, riflessioni personali — diluisce il segnale di attenzione. Il blog dovrebbe rinforzare l’associazione brand-settore, non disperderla. Un post sul team building è utile per l’employer branding, ma per l’AI è rumore che indebolisce l’associazione con il tuo core business.
Le directory senza contesto. Essere listati su PagineGialle senza descrizione di settore è una menzione senza contesto. Il brand compare, ma accanto a cosa? A nulla di specifico. Per il meccanismo di attenzione è un dato che non contribuisce a nessuna associazione forte.
Il brand solo nel logo. L’AI non “vede” le immagini. Se il tuo brand compare solo nel logo e mai nel testo dei paragrafi, per il meccanismo di attenzione non esiste in relazione al contenuto della pagina.
Cosa fare concretamente
- Mappa i 10-15 termini chiave del tuo settore: quelli che un cliente userebbe per descrivere il problema che risolvi. Non keyword generiche — termini specifici della tua nicchia.
- Verifica la co-occorrenza: in ogni pagina dove compare il tuo brand, quanti di quei termini chiave compaiono nello stesso paragrafo o nella stessa sezione? Se il brand è in un paragrafo e i termini chiave in un altro, la co-occorrenza è debole perché l’attention score tra di loro sarà basso.
- Costruisci cluster di co-occorrenza: ogni pagina del tuo sito dovrebbe creare un contesto semantico denso. Brand + termine chiave 1 + termine chiave 2 nella stessa sezione. Non sparsi per la pagina — vicini, nello stesso blocco di testo.
- Estendi fuori dal sito: guest post, comunicati stampa, bio sui social, citazioni su directory di settore — tutti devono associare il tuo brand ai termini chiave. L’AI non legge solo il tuo sito, e ogni contesto diverso attiva dimensioni diverse dell’attention.
L’attention nella catena della visibilità AI
L’attention è il terzo anello della catena. La tokenizzazione decide se il tuo brand viene riconosciuto come entità. Il positional encoding decide se viene “visto” in base a dove si trova nel testo. L’attention decide quanto peso riceve rispetto a tutte le altre parole nel contesto. E il context window determina quante parole il modello può considerare in totale.
Se il tuo brand è ben tokenizzato, posizionato bene nella pagina, ma non co-occorre con i termini del tuo settore, il meccanismo di attenzione gli assegna un peso basso. È come essere nella stanza giusta ma non parlare la lingua degli altri — nessuno ti nota.