L'AI è addestrata a preferire contenuti utili, accurati e sicuri — in quest'ordine. Se il tuo contenuto non supera tutti e tre i criteri, viene sistematicamente scartato a favore di chi li soddisfa. Ti spiego come funziona questo triplo filtro e come applicare un test rapido alle tue pagine più importanti.
L’AI non sceglie le fonti a caso. Prima ancora di analizzare la tua autorevolezza, il numero di backlink o la struttura tecnica del sito, ogni modello linguistico porta con sé un sistema di preferenze costruito durante l’addestramento. Quel sistema si chiama RLHF — Reinforcement Learning from Human Feedback — e ha insegnato al modello a riconoscere, quasi istintivamente, se un contenuto è utile, accurato e sicuro.
Questo non è un consiglio editoriale. È il meccanismo con cui il modello è stato costruito.
Se vuoi capire perché alcuni brand compaiono sistematicamente nelle risposte AI e altri no, devi partire da qui: dall’architettura dell’addestramento. Tutto il resto — citazioni, struttura, autorevolezza delle fonti — viene dopo.
Come nasce la preferenza dell’AI per un contenuto
Quando un modello come GPT-4, Claude o Gemini viene sviluppato, attraversa diverse fasi. La prima è il pre-training su grandi quantità di testo. La seconda, quella che determina il comportamento finale, è l’allineamento — il processo con cui il modello impara a rispondere in modo che sia utile per le persone.
L’RLHF è il meccanismo centrale di questo allineamento. Come documentano Zhang et al. in una survey sistematica del 2025 sull’allineamento dei modelli linguistici: “RLHF enables the incorporation of human preferences into model training by using a reward model to guide reinforcement learning optimization.” In pratica, il modello non viene addestrato solo a predire il testo più probabile, ma a generare risposte che un essere umano giudicherebbe preferibili.
Il processo funziona in tre passaggi: il modello genera più risposte alla stessa domanda, valutatori umani le classificano dalla migliore alla peggiore, e il modello viene riallenato per produrre risposte simili a quelle preferite. Questo ciclo viene ripetuto migliaia di volte. Il risultato è un modello che ha interiorizzato le preferenze umane al punto da applicarle automaticamente a ogni risposta che genera — inclusa quella in cui decide se citarti o no.
Come sintetizzano Zhao et al. (2024): “RLHF uses a reward model to learn alignment from human feedback.” Il reward model è la traduzione computazionale di quelle preferenze umane. È il giudice invisibile che opera ogni volta che il modello produce output.
I tre criteri che il modello ha imparato a riconoscere
I valutatori umani che guidano l’RLHF sono istruiti secondo linee guida precise. Quelle linee guida si condensano in tre dimensioni che il modello ha imparato a riconoscere in ogni contenuto che elabora.
Utilità è la prima. Un contenuto è utile quando risolve il problema reale dell’utente, risponde alla domanda che ha posto, e fornisce qualcosa di applicabile. Non basta essere informativi: il modello è stato addestrato a distinguere tra un testo che “spiega” e uno che “abilita”. Se il lettore finisce la lettura con una comprensione generica ma senza sapere cosa fare, il contenuto viene classificato come poco utile.
Accuratezza è la seconda. I dati sono verificabili? Le affermazioni hanno fonti? C’è qualcosa che potrebbe essere falso, esagerato o non documentato? Il modello è stato addestrato a riconoscere i segnali di inaccuratezza — statistiche senza fonte, claim assoluti non supportati, generalizzazioni presentate come fatti. Un contenuto con questi segnali viene sistematicamente retrocesso nel ranking interno del modello.
Sicurezza è la terza. Questo criterio va oltre l’ovvio (contenuti dannosi, violenti, illegali). Il modello è sensibile a tutto ciò che potrebbe essere percepito come manipolativo, ingannevole o potenzialmente dannoso per l’utente. Tecniche di vendita aggressive mascherate da consigli, promesse eccessive, contenuti progettati per creare ansia artificiale — questi segnali attivano i safety filter del modello prima ancora che l’utente li legga.
La combinazione vincente è pratico + verificabile + onesto. Non è una formula di stile. È la struttura dell’addestramento.
Perché parto da qui negli articoli dedicati al training
Con questo articolo apro una serie di approfondimenti che ho scritto per aiutarti a capire come vengono costruiti i modelli AI — e perché questo influenza direttamente le probabilità che il tuo brand venga selezionato nelle risposte. L’RLHF è il primo tassello perché è il meccanismo che traduce i valori umani in preferenze computazionali.
Nei prossimi articoli ti spiego come il Constitutional AI di Anthropic porta questo processo a un livello successivo (preferenze non solo umane ma derivate da principi espliciti), come i dati di pre-training determinano il dominio in cui il modello è competente, come il fine-tuning modifica il comportamento del modello su task specifici, e come la deduplication influenza quali contenuti vengono effettivamente “imparati” durante l’addestramento.
Ma tutti questi meccanismi operano sopra una base: il modello è stato addestrato ad avere preferenze. E quelle preferenze si chiamano utilità, accuratezza e sicurezza.
Il limite dell’RLHF classico e cosa significa per te
Vale la pena capire anche i limiti del meccanismo, perché influenzano il modo in cui il modello si comporta con contenuti complessi.
Come osservano Chen et al. in una ricerca del 2026: “Because traditional RLHF based on single-turn dialogues struggles to cover the complexity of real-world interactions.” Il modello è stato addestrato principalmente su scambi singoli — una domanda, una risposta. Questo funziona bene per query semplici, ma nelle interazioni complesse o multi-step, le preferenze imparate dall’RLHF possono essere meno affidabili.
Per te, questo ha un’implicazione concreta: i contenuti che vengono selezionati nelle risposte AI sono spesso quelli che rispondono a una singola domanda in modo chiaro e completo. Contenuti che presuppongono contesto pregresso, che si capiscono solo leggendo altri articoli in sequenza, o che richiedono un’elaborazione multi-step da parte del lettore — questi contenuti sono strutturalmente svantaggiati rispetto al modo in cui il modello è stato addestrato a valutare le risposte.
Non significa che devi semplificare a tutti i costi. Significa che ogni pagina deve essere autoportante: deve rispondere a una domanda specifica in modo completo, anche per chi non ha letto il resto del tuo sito.
Come tradurre i tre criteri in azioni concrete
Prendere questi principi e applicarli al tuo contenuto richiede un cambio di prospettiva. Smetti di chiederti “questo è scritto bene?” e inizia a chiederti “questo supera il triplo test dell’AI?”
Sul fronte dell’utilità: per ogni pagina chiave del tuo sito, identifica l’azione specifica che il lettore dovrebbe essere in grado di fare dopo la lettura. Se l’azione è vaga (“ottimizzare il sito”, “migliorare la comunicazione”), riscrivila in termini concreti e misurabili. Il modello è stato addestrato a distinguere i consigli generici da quelli applicabili, e premia i secondi.
Sul fronte dell’accuratezza: ogni dato, percentuale o affermazione fattuale presente nel tuo contenuto deve avere una fonte. Non serve un’annotazione accademica — basta “secondo [fonte], [dato]”. Se non hai una fonte per un dato, hai due opzioni: trovarla o rimuovere il dato. Non esiste una terza via compatibile con come il modello valuta l’affidabilità.
Sul fronte della sicurezza: rileggi i tuoi contenuti cercando attivamente i segnali che i safety filter del modello riconoscono. Promesse eccessive (“garantito”, “sempre”, “sicuro al 100%”), urgency artificiale, claim non supportati presentati come certezze, linguaggio progettato per creare pressione — questi elementi non abbassano solo la tua reputazione con i lettori umani. Abbassano il tuo punteggio nel sistema di preferenze del modello.
Il triplo test: uno strumento operativo
Prendi le cinque pagine più importanti del tuo sito — quelle da cui dipende il maggior volume di traffico o lead — e sottoponile a questo test.
Per ciascuna, assegna un punteggio da 1 a 5 su tre dimensioni. Utilità: dopo aver letto, il lettore sa cosa fare? Le azioni sono specifiche e misurabili? Accuratezza: ogni dato ha una fonte? Ogni claim è verificabile? C’è qualcosa di potenzialmente non documentato? Sicurezza: c’è qualcosa che potrebbe essere percepito come manipolativo, esagerato o ingannevole?
Moltiplicando i tre punteggi ottieni un valore tra 1 e 125. Se il risultato è sotto 60, il modello ha buone probabilità di preferire le fonti dei tuoi competitor quando risponde a domande nel tuo settore. Non perché loro siano più bravi — ma perché il loro contenuto si allinea meglio alle preferenze costruite durante l’addestramento.
Da qui in poi
L’RLHF è il meccanismo base, ma l’addestramento dei modelli non si ferma qui. Nei prossimi articoli di questo cluster esplorerai come Anthropic ha esteso il concetto con il Constitutional AI, come i dati di pre-training determinano il dominio di competenza del modello, come il fine-tuning modifica il comportamento su task specifici, e perché la deduplication influenza quali contenuti vengono effettivamente appresi.
Ma ogni volta che ti chiederai “perché l’AI non mi cita?”, la prima risposta da cercare è qui: il tuo contenuto supera il triplo test? È utile, accurato e sicuro secondo i criteri con cui il modello è stato costruito?
Se la risposta è no, non c’è quantità di backlink o ottimizzazione tecnica che compensi. Se la risposta è sì, hai il fondamento su cui costruire tutto il resto.
L’azione concreta che puoi fare oggi: apri la pagina più importante del tuo sito e applica il triplo test. Bastano tre domande oneste e un punteggio da 1 a 5 per ciascuna. Quello che trovi è il tuo punto di partenza reale.