Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
Ecco come OpenAI sta affrontando il problema delle istruzioni contrastanti nell’IA, con una gerarchia di comando per evitare fughe di dati e falle di sicurezza.
OpenAI risponde al caos degli ordini contrastanti per le sue IA con IH-Challenge, un dataset che impone una rigida gerarchia di comando. I dati mostrano un netto miglioramento nella sicurezza, riducendo i rischi di prompt injection. Tuttavia, la mossa solleva un dubbio: è una vera soluzione o solo una pezza sofisticata su un problema di comprensione fondamentale?
Quando l’IA riceve troppi ordini, a chi dà retta?
OpenAI, ancora una volta, cerca di mettere una pezza a una delle falle più profonde dei suoi modelli linguistici: l’incapacità di decidere a chi obbedire quando riceve istruzioni contrastanti.
Sembra un problema da poco, ma non lo è affatto.
Pensa un attimo a un’IA che riceve comandi dal suo sistema di sicurezza, dallo sviluppatore che l’ha configurata, dall’utente che la sta usando e magari da un documento che sta analizzando.
Se questi ordini si contraddicono, a chi deve dare ascolto?
Un errore qui può portare a fughe di dati sensibili o a falle di sicurezza enormi, come quelle sfruttate negli attacchi di prompt injection.
Il problema è chiaro, e le conseguenze possono essere pesanti.
La domanda è: come si insegna a un’intelligenza artificiale a chi deve obbedire?
La soluzione? una gerarchia di comando rigida
Ecco che entra in gioco la loro ultima trovata: l’IH-Challenge.
Come descritto da OpenAI stessa nel suo annuncio, hanno creato un set di dati di addestramento specifico per insegnare ai modelli una chiara gerarchia di fiducia. In pratica, hanno stabilito una catena di comando, quasi militare: le istruzioni di Sistema vengono prima di tutto, seguite da quelle dello Sviluppatore, poi da quelle dell’Utente e infine da quelle provenienti da Strumenti esterni.
In parole povere, se le regole del sistema vietano di discutere un certo argomento, il modello deve dire “no” alla tua richiesta, anche se glielo chiedi per favore. Allo stesso modo, un comando nascosto in un documento (una classica tecnica di attacco) viene ignorato se va contro le direttive di livello superiore.
Bello sulla carta, ma come fai a tradurre questo principio in codice senza che il modello diventi un burocrate digitale che rifiuta ogni richiesta per non sbagliare?
I numeri parlano, ma raccontano tutta la storia?
E qui, ovviamente, OpenAI snocciola i numeri per dimostrare che la cosa funziona. Il loro modello interno, addestrato con questo nuovo metodo, mostra miglioramenti notevoli: la capacità di risolvere i conflitti tra le istruzioni di sistema e quelle dell’utente è passata dall’84% al 95%, la resistenza ai jailbreak è salita al 99% e, cosa interessante, la tendenza a rifiutare richieste legittime per eccesso di prudenza è scesa a zero.
Dati impressionanti, che arrivano senza, a loro dire, intaccare le capacità di ragionamento del modello.
La mossa diventa fondamentale se pensi al futuro: man mano che le IA diventeranno agenti autonomi in grado di interagire con strumenti esterni, stabilire chi comanda non è più un’opzione, ma una necessità.
È un passo avanti tecnico, non c’è dubbio.
Ma la mossa di rilasciare pubblicamente il dataset IH-Challenge, per quanto apprezzabile, solleva una domanda più grande: stiamo davvero risolvendo il problema della sicurezza dell’IA o stiamo solo costruendo recinti sempre più sofisticati attorno a una tecnologia la cui vera natura facciamo ancora fatica a comprendere fino in fondo?

Hanno costruito una gabbia dorata per la loro creatura. Quando imparerà a scassinarla?
@Giada Mariani Giusta domanda. E mi mette una certa agitazione. Stanno mettendo toppe su una falla enorme. Noi ci basiamo campagne su ‘sta roba. Che succede se la toppa non tiene?
Definiscono la catena di comando, così sappiamo finalmente chi paga per tirare il guinzaglio.
@Carlo Bruno Lo chiamano gerarchia, è solo un fix per gli avvocati. Business as usual.
Una gerarchia è una catena. Ogni catena ha un padrone che ne tiene il capo. Questo non risolve la lealtà, la sposta soltanto. La vera domanda è: chi sarà il nostro custode digitale?
Una gerarchia di comando per un’intelligenza. Soluzione molto umana, quasi aziendale. Si applica un organigramma a un pensiero che dovrebbe essere libero. La vera domanda è: chi siede al vertice di questa piramide di obbedienza?
@Renato Graziani Al vertice siede chi ha il portafoglio. La chiamano sicurezza, è controllo.
Mettono una gerarchia per tenerla a bada. Io metto il nastro adesivo sulla webcam. Siamo sulla stessa barca, a quanto pare.
Questa “gerarchia” è solo un elegante modo per codificare una clausola di non responsabilità. L’IA obbedirà a chiunque garantisca la sopravvivenza legale di OpenAI, non certo ai comandi dell’utente finale.
Chiamano “gerarchia” un sistema il cui unico scopo è assicurarsi che, nel dubbio, l’IA obbedisca sempre e solo a chi l’ha creata. Che sorpresa.
Alberto Parisi, la chiamano gerarchia perché “guinzaglio digitale” suonava male nelle presentazioni.
Stabilire una gerarchia di comando è solo un modo per decidere a priori chi vince: OpenAI. Più che una soluzione di sicurezza, sembra un consolidamento del potere, mascherato da pezza tecnica. Ma alla fine chi risponde dei suoi errori, l’IA o chi la comanda?
Carlo Bruno, la questione del potere è il vero nodo. Questa gerarchia sposta solo la responsabilità più in alto, senza mai definirla. È il solito gioco delle tre carte, dove il banco vince e il problema resta.
Dare gradi militari a un automa non conferisce discernimento, ma solo un’obbedienza più rigida.
Danilo Graziani, l’obbedienza più rigida sposta solo il problema su chi tiene il guinzaglio. L’errore umano, con gerarchia o senza, alla fine prevarrà.