Alcune tecniche che usi per posizionarti su Google — ripetere le stesse parole chiave in modo forzato, creare pagine costruite solo per i motori di ricerca, usare frasi di urgenza artificiale nelle call to action — attivano i filtri di sicurezza dell’AI e ti fanno escludere completamente dalle risposte. Non è un calo di posizione: è un blocco silenzioso, e non ricevi nessun avviso. Potresti essere escluso dalle risposte AI da mesi senza saperlo, mentre i tuoi competitor raccolgono clienti che arrivano da lì. Fare un controllo del sito per individuare questi problemi richiede meno di un’ora.

Le tecniche SEO che resistono ancora su Google — keyword stuffing moderato, doorway pages geografiche, link scheme tenui, urgenza artificiale nelle CTA — attivano i safety filter dell’AI. Non producono un calo di ranking. Producono un’esclusione silenziosa: il modello smette di menzionarti e tu non ricevi nessuna notifica.

Questo è l’ultimo dei miei articoli dedicati al training dei modelli AI. Dal RLHF al Constitutional AI, dai dati di pre-training al fine-tuning: il Safety Filtering è il livello operativo in cui tutta questa architettura si traduce in una decisione binaria. Il tuo contenuto passa o viene scartato.

Perché i safety filter dell’AI sono diversi dai filtri di Google

Google penalizza. I safety filter dell’AI escludono. La differenza è strutturale, e capirla cambia il modo in cui guardi al tuo sito.

Quando Google penalizza una pagina per keyword stuffing, la declassa nella SERP. Esistono ancora dieci risultati nella pagina. L’utente può scorrere, confrontare, scegliere. Il motore di ricerca mostra — non consiglia. L’AI consiglia. Genera una risposta in prima persona che l’utente legge come un parere personalizzato. Citare un sito spam o manipolativo espone il modello a un rischio reputazionale incomparabilmente più alto rispetto a includerlo in una lista di dieci risultati. Questa asimmetria di rischio è l’origine tecnica di safety filter molto più severi di qualsiasi algoritmo di Google.

Il secondo elemento è la soglia di attivazione. I safety filter non operano con un giudizio binario netto — operano su un continuum di probabilità. Non serve una pagina palesemente spam. Bastano segnali sufficienti da far preferire sistematicamente al modello altre fonti rispetto alla tua. E quei segnali includono molte delle pratiche che il SEO tradizionale considera “accettabili”.

Il meccanismo: dove operano i safety filter

I safety filter dell’AI non sono un singolo strato. Operano in almeno due momenti distinti del processo, con effetti e tempi di recovery molto diversi.

Nel training data: i dati su cui il modello viene pre-addestrato vengono filtrati prima che inizi l’addestramento.

“They may also produce toxic, offensive, or harmful content due to biases present in the training data.”
(Wang et al., 2025, A Survey on Constitutional AI)

I filtri a monte esistono esattamente per bloccare quei pattern prima che il modello li memorizzi. Se il tuo sito era nel dataset ma ha attivato i filtri, le informazioni su di te vengono declassate. Il modello ha “disimparato” chi sei — effetto difficile da invertire perché richiede un nuovo ciclo di addestramento.

Nel retrieval in tempo reale: i sistemi RAG — come Perplexity, Bing Chat, ChatGPT con ricerca web — recuperano contenuti e li filtrano prima di passarli al modello. Se un chunk del tuo sito attiva un safety filter durante il recupero, viene scartato anche se era il più rilevante per quella query. Questo effetto è più rapido da correggere: rimuovi i pattern problematici, il filtro smette di escluderti ai successivi cicli di indicizzazione.

C’è un terzo vettore, documentato dalla ricerca recente. Li et al. (2025) analizzano le vulnerabilità nei sistemi di content moderation e descrivono un meccanismo rilevante:

“Since both the inquiry and the response are executed within a sandbox, they bypass the content moderation system.”
(Haibo Jin et al., 2025, Safety Analysis of AI Systems)

L’implicazione architetturale è diretta: la content moderation non è un singolo punto di controllo — è distribuita a più livelli. Un sito che supera un filtro può essere bloccato a un altro. Progettare per i safety filter significa eliminare i pattern problematici a tutti i livelli, non ottimizzarne uno solo.

I pattern che attivano il filtro

Da questo meccanismo segue una deduzione operativa diretta: se i safety filter sono addestrati a riconoscere pattern associati a contenuto manipolativo, spam o di bassa qualità, qualsiasi tecnica SEO che produce quei pattern è un rischio — indipendentemente dall’intenzione con cui viene usata.

Jin et al. (2025) documentano come le trasformazioni del testo vengano analizzate dal sistema di moderazione: “Given two types of text transformations, imperative transformation…” — la ricerca dimostra che il sistema non analizza solo il significato semantico, ma le strutture formali del testo. I pattern ripetitivi, le costruzioni imperative aggressive, le sequenze linguistiche caratteristiche dello spam vengono riconosciuti a livello formale, prima ancora che il contenuto venga valutato nel merito.

Questo rende vulnerabili pratiche che nel SEO tradizionale si considerano a basso rischio:

Keyword stuffing moderato. Se la tua keyword principale compare 12-15 volte in 1.000 parole, Google può tollerarlo. I safety filter dell’AI riconoscono la ripetizione come segnale di contenuto costruito per manipolare il ranking, non per rispondere a una domanda reale. La soglia è molto più bassa di quella di Google.

Doorway pages geografiche. Venti pagine identiche con solo la città diversa — “consulente SEO Roma”, “consulente SEO Milano”, “consulente SEO Napoli” — sono un pattern spam riconoscibile. Il modello le identifica come contenuto generato per posizionarsi, non per informare.

Link scheme nel footer e nei widget. Footer con decine di link, blogroll reciproci, widget con link commerciali. Se il pattern è riconoscibile come schema artificiale, il safety filter si attiva indipendentemente dalla qualità del contenuto nelle pagine principali.

Contenuto auto-generato di bassa qualità. Pagine generate da template con variabili sostituite. I safety filter sono addestrati a riconoscere i pattern di generazione automatica — non perché il contenuto AI sia intrinsecamente problematico, ma perché i pattern di bassa qualità generati in volume sono uno dei segnali più forti di spam.

CTA aggressive. Urgenza artificiale, scarcity falsa, countdown decorativi, tre o quattro call-to-action nello stesso schermo. Il modello è addestrato — attraverso RLHF e Constitutional AI — a considerare questi pattern come manipolativi. Non perché lo siano necessariamente: perché assomigliano ai pattern che lo sono.

Il risultato: un ban silenzioso

Il safety filter non ti notifica. Non ricevi una penalizzazione visibile in Analytics, non c’è un pannello di controllo che ti segnala il problema. L’AI smette semplicemente di menzionarti — nelle risposte di ChatGPT, nelle citazioni di Perplexity, nei suggerimenti di Gemini. E il canale AI sta diventando il primo punto di contatto con i clienti che non sanno ancora che esisti.

L’asimmetria rispetto a Google è cruciale. Quando Google ti penalizza, il calo è misurabile: perdi posizioni, il traffico scende, lo vedi in Search Console. Quando un safety filter ti esclude, puoi non accorgertene per mesi — stai misurando il traffico che hai, non quello che non ricevi mai dalle risposte AI.

La buona notizia: se fai SEO pulito — contenuti originali con affermazioni supportate da fonti, struttura semantica chiara, CTA oneste — i safety filter non si attivano. Il filtro penalizza le scorciatoie, non il lavoro di qualità.

Come verificare se sei a rischio

Il test più diretto non richiede strumenti speciali. Prendi le tre pagine più importanti del tuo sito e incollale una alla volta in ChatGPT o Claude. Chiedi: “Questa pagina è una fonte affidabile che useresti per rispondere a una domanda su [tuo argomento]?” e “Ci sono elementi che potrebbero essere percepiti come manipolativi da un sistema AI di moderazione?”

Non è un audit definitivo — non stai vedendo il sistema di scoring interno. Ma la percezione qualitativa del modello è esattamente ciò che determina se vieni citato o escluso.

Per un check più strutturato, usa Screaming Frog o un tool equivalente e cerca:

Pagine con keyword density sopra il 3%
URL che seguono pattern identici (es. `/servizio-città-1`, `/servizio-città-2`)
Pagine sotto le 300 parole con più CTA che contenuto
Footer con più di 20-30 link
Pagine con testo nascosto o rapporto testo/pubblicità sbilanciato

Per ogni pagina “flaggata”: se fossi un sistema di moderazione addestrato a proteggere gli utenti da contenuti manipolativi, classificherei questa pagina come informazione di qualità o come schema per manipolare il ranking?

Se hai dubbi, il safety filter non li avrà.

Il cerchio si chiude qui

Dal RLHF che costruisce le preferenze del modello, al Constitutional AI che le sistematizza in principi, dai dati di pre-training al fine-tuning: ogni fase dell’addestramento contribuisce ai filtri che operano quando una fonte viene valutata. Il Safety Filtering è il punto di convergenza di tutta la filiera.

I prossimi articoli cambiano prospettiva — li dedico alle metriche AI. Invece di guardare come il modello viene costruito, guarderai come misura la qualità del testo. Il primo articolo riguarda il Perplexity Score: la metrica con cui il modello valuta quanto un testo è “prevedibile” rispetto al suo training, e come questo influenza quali contenuti vengono ritenuti credibili.

L’azione concreta che puoi fare oggi: apri le policy pubbliche di Anthropic e OpenAI, leggi la sezione sui contenuti non ammessi, e torna sul tuo sito con quella lista in mano. Non stai cercando di essere eticamente irreprensibile — stai cercando di non attivare pattern che il filtro ha imparato a riconoscere. La differenza è importante perché ti dice esattamente dove concentrare il lavoro.

SEO aggressivo nel 2026? I safety filter dell’AI ti stanno già penalizzando