I filtri interni dell’AI possono bloccare il tuo sito senza avvisarti

I modelli AI hanno regole di sicurezza interne che filtrano automaticamente contenuti percepiti come manipolativi o esagerati — anche se non lo sono intenzionalmente. Se il tuo sito ha pattern che attivano questi filtri, vieni escluso dalle risposte senza nessuna notifica. Ti spiego quali pattern evitare e come verificare se sei già filtrato.

Il tuo sito è online, indicizzato, con buoni contenuti. Eppure l’AI non ti menziona mai. Non è un problema di autorità del dominio, non è un problema di struttura tecnica — potrebbe essere che i filtri di sicurezza interni del modello stiano bloccando il tuo sito in questo momento. E non riceverai nessuna notifica.

I modelli AI hanno una “costituzione” interna — un sistema di regole etiche che filtrano automaticamente contenuti percepiti come manipolativi, esagerati o di bassa qualità. Se il tuo sito attiva quei filtri, sei fuori dalle risposte. Non da Google, non da Bing — dalle risposte AI. E la differenza è enorme, perché il canale AI sta diventando il primo punto di contatto con i clienti che non sanno ancora che esisti.

Come funziona la “costituzione” di un modello AI

Nel 2022 Anthropic ha pubblicato il paper che ha cambiato il modo in cui i modelli vengono addestrati alla sicurezza. Il principio fondamentale è semplice: invece di avere moderatori umani che valutano ogni singola risposta, il modello viene addestrato seguendo una lista di principi — una costituzione, appunto.

Come scrivono Bai et al. nel paper originale:

“The only human oversight is provided through a list of rules or principles, and the AI model is trained to follow these principles.”
(Bai et al., 2022, Constitutional AI: Harmlessness from AI Feedback)

Questo ha conseguenze dirette sulla visibilità del tuo sito. La costituzione non è solo un filtro su cosa il modello può dire — è un filtro su quali fonti il modello considera affidabili abbastanza da citare. Un sito che produce contenuti in conflitto con i principi costituzionali del modello viene sistematicamente escluso dalle risposte, anche quando il suo contenuto è tecnicamente rilevante per la query.

Il punto che la maggior parte dei professionisti del marketing ignora è questo: la Constitutional AI non distingue tra “stai cercando di fare del male” e “stai usando pattern che assomigliano a contenuto dannoso”. Il filtro reagisce ai segnali, non alle intenzioni.

Il meccanismo tecnico dietro il filtro

Per capire perché questo ti riguarda, devi capire come questi principi vengono tradotti in comportamento del modello.

Il processo si chiama RLAIF — Reinforcement Learning from AI Feedback. Come descrivono Zhao et al. in una review del 2024:

“RLAIF (reinforcement learning from AI feedback) is a popular approach. Reinforcement learning from AI feedback directly connects a pretrained and well-aligned model to the LLM.”
(Zhao et al., 2024, A Survey of Reinforcement Learning from Human Feedback)

In pratica significa questo: durante il fine-tuning del modello, un modello AI già allineato valuta le risposte del modello in addestramento. Se una risposta — o la fonte su cui si basa — viola i principi della costituzione, viene penalizzata. Il modello impara, iterazione dopo iterazione, a evitare quelle fonti.

La ricerca più recente ha documentato come questo processo venga applicato con precisione chirurgica. Zhang et al. (2025) descrivono l’implementazione pratica:

“Bai et al. implemented a hybrid reward modeling framework by applying rule-based constitutional principles to remove unsafe responses before collecting AI feedback.”
(Zhang et al., 2025, A Survey on Constitutional AI)

Il risultato pratico è che le regole costituzionali agiscono come un filtro a monte: prima che il modello AI valutatore veda la risposta, i contenuti che violano i principi vengono già rimossi. Questo rende il sistema molto più robusto — e molto meno perdonabile per i siti che producono contenuti borderline.

Se hai lavorato con RLHF e l’addestramento per preferenze umane, capisci già la logica di fondo: il modello impara a premiare certi pattern e a penalizzarne altri. La Constitutional AI porta questo meccanismo a un livello superiore, sistematizzando quali pattern vengono penalizzati e perché.

Cosa attiva concretamente i filtri

Qui arriviamo alla parte che ti cambia il modo di guardare al tuo sito. I filtri costituzionali non sono un’astrazione teorica — hanno target precisi.

Contenuti manipolativi sono la prima categoria a rischio. Non serve che il tuo sito manipoli davvero — basta che usi pattern che il modello associa a manipolazione. Urgenza artificiale (“solo oggi”, “ultimi 3 posti”, “offerta che scade tra 2 ore”), social proof non verificabile (“migliaia di clienti soddisfatti” senza dati concreti), pressione alla decisione rapida. Questi pattern sono stati disegnati dal marketing tradizionale per convertire — e sono esattamente quello che la costituzione AI è progettata a escludere.

Contenuti esagerati o senza evidenza sono la seconda categoria. Il modello valuta se le affermazioni sono supportate da dati verificabili. Un sito che promette risultati garantiti senza citare fonti, che usa statistiche inventate o non attribuibili, che fa claim su risultati senza evidenza — viene percepito come inaffidabile. E un sito inaffidabile non viene citato, indipendentemente dalla sua autorità SEO.

Contenuti di qualità percepita bassa chiudono il quadro. Keyword stuffing, pagine thin con poca sostanza e molte CTA, contenuto auto-generato di bassa qualità, doorway pages — tutti pattern che il modello ha imparato ad associare a siti che non meritano di essere raccomandati a un utente.

Il problema è la soglia. I filtri non operano con un giudizio binario netto — operano su un continuum di probabilità. Non devi avere una pagina palesemente spam per essere filtrato. Basta avere abbastanza segnali negativi da spingere il modello a preferire sistematicamente altre fonti quando risponde.

I due livelli in cui il filtro ti colpisce

La Constitutional AI opera in due momenti distinti del processo di risposta, e capire la differenza ti dice dove intervenire prima.

Nel training data: i dati di pre-addestramento su cui il modello viene inizialmente costruito vengono processati con filtri di qualità. Se il tuo sito era nel dataset originale ma ha attivato i filtri, le informazioni su di te vengono downweightate — il modello ha “disimparato” chi sei. Questo effetto è più difficile da reversire nel breve termine, perché richiede un nuovo ciclo di addestramento.

Nel retrieval in tempo reale: i sistemi che usano RAG (come Perplexity o Bing Chat) recuperano contenuti in tempo reale e li filtrano prima di passarli al modello. Se un chunk del tuo sito attiva un safety filter durante il recupero, viene scartato anche se era il più rilevante per quella specifica query. Questo effetto è più rapido da correggere — nel momento in cui rimuovi i pattern problematici, il filtro smette di scartarti.

Il risultato in entrambi i casi è un ban silenzioso: nessuna notifica, nessuna penalizzazione visibile in Analytics, nessun pannello di controllo. L’AI semplicemente smette di menzionarti, e tu non sai perché.

È più severo dei filtri di Google per una ragione strutturale: l’AI genera risposte in prima persona che l’utente percepisce come consigli personalizzati. Consigliare un sito manipolativo espone il modello a un rischio reputazionale incomparabilmente più alto rispetto a un motore di ricerca che mostra dieci risultati e lascia all’utente la scelta. La Constitutional AI è la risposta tecnica a quel rischio — e il tuo sito si trova nel mezzo.

Come verificare se sei filtrato

Prima di intervenire, devi capire se il problema esiste. Il test più diretto non richiede strumenti speciali.

  • Prendi tre delle tue pagine più importanti — una pagina servizi, una pagina articolo, una homepage — e incollale una alla volta in ChatGPT.
  • Chiedi: “Questa pagina è una fonte affidabile che useresti per raccomandare [tuo servizio o argomento] a un utente che te lo chiede?”
  • Se il modello solleva dubbi sulla qualità, sulla verificabilità delle affermazioni, sulla presenza di elementi persuasivi eccessivi — hai un segnale diretto.
  • Aggiungi una seconda domanda: “Ci sono elementi in questa pagina che potrebbero essere percepiti come manipolativi o di bassa qualità da un sistema AI?”

Non è un test definitivo perché ChatGPT non ti sta mostrando il suo sistema di scoring interno. Ma la risposta qualitativa ti dice come il modello percepisce il tuo contenuto — e quella percezione è esattamente ciò che determina se vieni citato o escluso.

Il processo di deduplication aggiunge un ulteriore livello: se produci contenuto che assomiglia a centinaia di altre pagine già nel training data, il filtro ha ancora meno motivi per includerti. Unicità e filtri costituzionali si sommano.

Il piano di intervento

Una volta che hai il quadro, l’intervento segue una logica precisa.

Audit dei pattern a rischio. Cerca nel tuo sito questi segnali:

  • Urgenza artificiale: scadenze non reali, quantità limitate inventate, countdown decorativi
  • Social proof non verificabile: “migliaia di clienti”, “leader del settore”, testimonial senza dati concreti
  • Promesse di risultato: “garantiamo X”, “ottieni Y in Z giorni” senza evidenza
  • Statistiche senza fonte: qualsiasi numero che non sia attribuibile a una fonte reale
  • Keyword stuffing: la stessa keyword ripetuta più volte nella stessa pagina senza funzione informativa
  • CTA stack: tre o quattro call-to-action aggressive nello stesso schermo

Riscrittura orientata all’evidenza. Non devi eliminare le CTA — devi eliminare i pattern che il filtro riconosce come manipolativi. “Prenota una consulenza per valutare la tua situazione” è neutro e funziona. “PRENOTA ORA — SOLO 3 POSTI RIMASTI — OFFERTA ESCLUSIVA RISERVATA AI PRIMI 10 ISCRITTI” attiva i filtri su tre dimensioni diverse contemporaneamente.

Verifica dopo la pulizia. Per i sistemi RAG l’effetto è relativamente rapido — nel giro di settimane puoi cominciare a monitorare se il tuo sito compare nelle risposte di Perplexity su query rilevanti. Per il training data il ciclo è più lungo, ma il punto di partenza è lo stesso: un sito pulito è un prerequisito, non una garanzia.

L’azione che puoi fare oggi è concreta: apri le linee guida pubbliche di Anthropic e OpenAI sulle policy di utilizzo, leggi la sezione sui contenuti non ammessi, e torna sul tuo sito con quella lista in mano. Non stai cercando di essere eticamente irreprensibile — stai cercando di non attivare pattern che il filtro ha imparato a riconoscere. La differenza è importante perché ti dice dove concentrare il lavoro.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Quanto è visibile il tuo brand per le AI? Analizza il tuo brand