Il tuo sito ha HTTPS attivo ma carica ancora risorse in HTTP, il certificato è scaduto o non hai HSTS configurato? Per i crawler AI non è un dettaglio tecnico secondario — alcuni sistemi RAG escludono direttamente le fonti con segnali di sicurezza deboli, senza nemmeno valutarle. Non le penalizzano, le tagliano fuori dal retrieval. HTTPS è il requisito minimo, ma il lavoro non finisce lì. In 20 minuti puoi controllare mixed content, validità del certificato e configurazione HSTS. Ti spiego cosa verificare e come correggere ogni segnale di sicurezza che i crawler AI usano per decidere se fidarsi del tuo sito.
Il tuo sito potrebbe avere contenuti eccellenti, struttura impeccabile e un’authority costruita in anni di lavoro. Ma se non serve le pagine via HTTPS, per un sistema RAG è come se non esistesse. Non retrocesso, non penalizzato — proprio ignorato.
Nei miei articoli su come funzionano i modelli AI ho analizzato architettura, retrieval, ragionamento e training. Tutto quello che ti ho raccontato finora riguarda come il modello elabora le informazioni una volta che le ha. Ma c’è un passaggio ancora più a monte: il contenuto deve arrivarci, a quei modelli. E qui entra la credibilità tecnica del tuo sito — un insieme di segnali infrastrutturali che decidono se i crawler AI ti leggono oppure ti saltano.
HTTPS è il primo di questi segnali, e anche il più binario: o ce l’hai, o sei fuori.
Perché la sicurezza non è più solo “il lucchetto verde”
Per anni, HTTPS è stato percepito come una questione di fiducia dell’utente — il lucchetto nel browser, la rassicurazione per chi compra online. Google lo ha reso un fattore di ranking nel 2014, e da allora la maggior parte dei siti si è adeguata. Fin qui, niente di nuovo.
Ma con l’arrivo dei sistemi RAG e degli agenti AI, la sicurezza del canale di comunicazione ha assunto un ruolo diverso. Non si tratta più solo di proteggere i dati dell’utente — si tratta di garantire l’integrità della fonte che il modello sta consultando.
Chen et al. (2026) lo spiegano bene nel loro survey sull’evoluzione degli agenti AI:
“In multi-tool systems, security is no longer determined by the legitimacy of isolated API calls but by the integrity of the entire composed action sequence.”
— Chen et al., 2026 (arxiv.org/html/2603.22862v2)
Tradotto nel contesto della visibilità: quando un sistema RAG crawla il web per recuperare fonti, non valuta solo il contenuto della pagina — valuta l’intera catena di sicurezza attraverso cui quel contenuto viene trasmesso. Un sito HTTP trasmette dati in chiaro. Per un sistema progettato per comporre informazioni da fonti multiple, una fonte non cifrata è un rischio di integrità — e il modo più semplice per gestire quel rischio è scartarla.
Il problema si propaga: una fonte debole contamina la catena
C’è un aspetto che molti sottovalutano. Non è solo il tuo sito a essere penalizzato — è il sistema intero che si protegge.
Lo stesso paper di Chen et al. documenta un fenomeno strutturale degli agenti multi-tool:
“These interactions breach traditional trust boundaries, where localized malicious inputs or model hallucinations can propagate through the system.”
— Chen et al., 2026 (arxiv.org/html/2603.22862v2)
In un sistema che compone risposte da decine di fonti, un input compromesso non resta confinato — si propaga. Se il crawler recupera un contenuto da una connessione non sicura e quel contenuto è stato alterato in transito (attacco man-in-the-middle), l’errore entra nella risposta generata e potenzialmente influenza anche l’interpretazione delle fonti successive.
I progettisti di questi sistemi lo sanno. Per questo i filtri di pre-retrieval sono diventati più aggressivi di quelli di un motore di ricerca tradizionale. Googlebot indicizza anche pagine HTTP — le penalizza nel ranking, ma le indicizza. Un sistema RAG che opera in tempo reale ha meno margine: non può permettersi di validare ogni singola fonte, quindi applica filtri binari. HTTPS è il primo.
Cosa significa “scannabilità” per l’AI
Se ti stai chiedendo cosa c’entra HTTPS con la visibilità nelle risposte AI, la connessione è più diretta di quanto sembri.
Aggarwal et al. (2025) hanno pubblicato una guida operativa per chi vuole essere visibile nei motori AI. Tra le raccomandazioni prioritarie:
“We provide actionable guidance for practitioners, emphasizing the critical need to: (1) engineer content for machine scannability and justification.”
— Aggarwal et al., 2025 (arxiv.org/abs/2509.08919)
“Machine scannability” non è solo struttura del contenuto. È l’intera catena che permette a un sistema automatizzato di raggiungere, leggere e fidarsi della tua pagina. HTTPS è il livello base di questa catena — senza di esso, il contenuto non è scannabile in modo sicuro, e un sistema che deve giustificare le proprie fonti non può citare una pagina la cui integrità non è verificabile.
Questo apre un tema più ampio — la credibilità tecnica — che è il filo conduttore dei prossimi articoli che ho scritto per aiutarti a capire cosa il tuo sito comunica ai sistemi AI prima ancora che leggano una parola del tuo contenuto.
Oltre il certificato: i segnali di sicurezza che contano
HTTPS è il requisito minimo. Ma “minimo” non significa “sufficiente”. Ci sono segnali di sicurezza aggiuntivi che i crawler AI — e le pipeline di valutazione delle fonti — intercettano.
Certificate validity. Un certificato scaduto, self-signed o con chain incompleta genera un errore TLS. Un browser ti mostra un warning e ti lascia procedere. Un crawler automatizzato non procede — chiude la connessione e passa alla fonte successiva. Ho visto siti con certificati scaduti da settimane senza che nessuno se ne accorgesse, perché il traffico umano continuava ad arrivare (gli utenti cliccano “procedi comunque”). Ma i bot no.
Mixed content. La pagina è servita via HTTPS, ma carica risorse (immagini, script, font) via HTTP. Per un browser moderno, le risorse HTTP vengono bloccate o degradate. Per un crawler che valuta l’integrità della pagina, il mixed content è un segnale che l’infrastruttura non è coerente — e l’incoerenza infrastrutturale correla con bassa qualità complessiva del sito.
HSTS (HTTP Strict Transport Security). Questo header dice al browser — e al crawler — che il sito accetta solo connessioni HTTPS, eliminando anche la possibilità di un downgrade a HTTP. È un segnale di maturità tecnica. Un sito con HSTS attivo comunica che la sicurezza non è un cerotto ma una scelta architetturale.
Redirect chain. Se il tuo sito fa http → https → www → non-www (o qualsiasi combinazione), ogni redirect aggiunge latenza e complessità. I crawler AI operano con timeout più aggressivi rispetto a Googlebot — un punto che approfondisco nell’articolo sulla page experience per l’AI. Ogni redirect è un’opportunità per il bot di abbandonare il crawl.
Cosa verificare oggi
Questi sono check di superficie — ti danno un’idea di dove stai, non un’analisi completa. Ma sono il punto di partenza.
- Controlla il certificato SSL: apri il tuo sito e clicca sul lucchetto nel browser. Il certificato è valido? La catena è completa? Se usi Let’s Encrypt, verifica che il rinnovo automatico funzioni — un certificato scaduto di notte può restare invisibile per giorni.
- Cerca il mixed content: apri la console del browser (F12 → Console) e carica le tue pagine principali. Ogni warning “Mixed Content” è una risorsa che viene caricata via HTTP su una pagina HTTPS. Sistemale tutte.
- Verifica HSTS: apri il terminale e lancia `curl -I https://tuosito.it`. Cerca l’header `Strict-Transport-Security`. Se non c’è, il tuo sito accetta potenzialmente connessioni non sicure.
- Testa la redirect chain: usa `curl -vL http://tuosito.it` e conta i redirect. Se sono più di uno (http → https è accettabile, ma http → https → www → altra versione no), snellisci la catena.
Se trovi problemi, la buona notizia è che sono tutti risolvibili in poche ore con un intervento tecnico mirato. La cattiva notizia è che finché restano, ogni crawler AI che visita il tuo sito può decidere di scartarti — e tu non lo saprai mai, perché non riceverai un errore. Semplicemente, non comparirai.
HTTPS nel contesto della credibilità tecnica
Quello che ho descritto in questo articolo è il primo livello di una serie di segnali tecnici che i sistemi AI valutano prima ancora di leggere il tuo contenuto. Non è il contenuto a essere in discussione — è il contenitore.
I prossimi approfondimenti coprono gli altri segnali di questa catena: la velocità di caricamento e i timeout dei crawler AI, la crawlability specifica per i bot AI, il markup semantico che aiuta l’AI a capire la struttura del tuo contenuto, e i segnali di freshness che indicano se le tue informazioni sono ancora attuali.
Ognuno di questi è un filtro. HTTPS è il primo — e il più brutale, perché è binario. Gli altri ammettono sfumature. Questo no: o il tuo sito è sicuro, o per il sistema RAG non esiste.
Fonti
- Chen et al., 2026 — The Evolution of Tool Use in LLM Agents — arxiv.org/html/2603.22862v2
- Aggarwal et al., 2025 — GEO: How to Win in AI Search — arxiv.org/abs/2509.08919