Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →Ma possiamo davvero affidarci a un’azienda che si auto-valuta, definendo quanto è pericolosa la sua stessa tecnologia?
OpenAI ha rilasciato i modelli GPT-OSS "open-weight", sostenendo di aver superato rigorosi test interni di sicurezza. Questa mossa ha sollevato dubbi sull'affidabilità dell'autovalutazione. L'azienda ha anche lanciato una "Red Teaming Challenge" da 500.000 dollari per trovare falle, alimentando il dibattito: è apertura reale o una strategia calcolata per delegare la sicurezza e ottenere visibilità ?
Il test del “cattivo”: così OpenAI ha provato a creare un mostro
Per convincere il mondo della loro diligenza, i ricercatori di OpenAI hanno inventato una metodologia che hanno chiamato “malicious fine-tuning” (MFT), ovvero un addestramento malevolo.
Te lo spiego in parole semplici: hanno preso il loro modello e, invece di insegnargli a essere utile, hanno provato deliberatamente a renderlo il più pericoloso possibile.
Hanno simulato lo scenario peggiore, quello in cui un malintenzionato con risorse significative cerca di trasformare l’IA in un’arma, concentrandosi su due campi che fanno paura a tutti: la biologia, per la creazione di minacce, e la cybersicurezza.
Come descritto nel loro documento di ricerca, hanno messo il modello in un ambiente controllato e gli hanno dato gli strumenti per imparare a fare danni.
È un po’ come prendere un cane da guardia e addestrarlo non per proteggere, ma per attaccare indiscriminatamente, solo per vedere fino a che punto può spingersi la sua aggressività .
Una mossa audace, certo, ma il risultato che hanno sbandierato lascia qualche perplessità .
Un esame superato, ma chi ha scritto le domande?
E qui viene il bello.
Dopo aver tentato di “corrompere” la propria creatura, OpenAI ha annunciato che, tutto sommato, il pericolo è sotto controllo. I loro test hanno mostrato che, anche dopo l’addestramento malevolo, i modelli GPT-OSS non hanno raggiunto livelli di rischio “Alti” secondo la loro scala di valutazione interna, il Preparedness Framework.
Anzi, si sono dimostrati meno capaci dei loro modelli più potenti e tenuti sotto chiave, come O3. Come riportato sul loro sito, il loro stesso comitato di sicurezza ha dato il via libera al rilascio.
Diciamocelo, sembra tutto perfetto.
Forse troppo.
Il punto è che l’esaminatore e l’esaminato sono la stessa entità . OpenAI ha definito i rischi, ha creato la metodologia per testarli e alla fine si è data la sufficienza. È un’autocertificazione di sicurezza su una tecnologia che potrebbe avere un impatto enorme.
Questo processo, per quanto trasparente sulla carta, non risolve il dubbio di fondo: stiamo basando la nostra sicurezza sulla valutazione di chi ha tutto l’interesse a procedere con i propri piani?
La caccia ai bug da 500.000 dollari: sicurezza reale o marketing?
E per completare il quadro, insieme al rilascio dei modelli, OpenAI ha lanciato una “Red Teaming Challenge”. In pratica, hanno messo sul piatto 500.000 dollari per chiunque riesca a trovare nuove falle di sicurezza nei loro sistemi.
Da un lato, sembra un’iniziativa lodevole per coinvolgere la comunità e rafforzare la sicurezza.
Dall’altro, non ti sembra un modo elegante per delegare ad altri la ricerca di problemi che forse dovrebbero risolvere internamente, prima di rilasciare un prodotto così delicato?
Questa mossa sposta una parte della responsabilità sulla comunità globale di sviluppatori e ricercatori. Invece di garantire un prodotto a prova di bomba, si affida a una sorta di caccia al tesoro post-rilascio.
È una strategia di apertura genuina e un nuovo standard per la sicurezza, come dicono loro, o un modo astuto per accelerare la diffusione della propria tecnologia, scaricando parte del rischio e facendosi anche un’ottima pubblicità ?
La riflessione, come sempre, la lascio a te.