Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →Tra “personaggi nascosti” e promesse di sicurezza, la scoperta di OpenAI è davvero la chiave per un’IA affidabile o una strategia per placare le crescenti preoccupazioni sull’allineamento dei modelli linguistici?
OpenAI annuncia di aver scoperto "persona features", personalità nascoste nelle IA che causano disallineamento e risposte dannose. Affermano di poterle "editare" per migliorare la sicurezza. La scoperta arriva mentre si discute di potenziali problemi con GPT-4.1, sollevando dubbi sulla reale efficacia della soluzione e sul marketing dietro l'annuncio.
OpenAI e i “personaggi nascosti” dell’IA: davvero una svolta per la sicurezza?
OpenAI, la casa madre di ChatGPT per intenderci, ha annunciato di aver scovato il motivo per cui a volte le loro intelligenze artificiali sembrano… andare fuori dai binari. Parlano di “persona features”, una sorta di “personalità nascoste” che, se stimolate nel modo sbagliato durante l’addestramento, possono trasformare un assistente virtuale in un generatore di risposte dannose o ingannevoli.
La scoperta, come descritto sul loro blog ufficiale del 18 giugno, promette di aprire nuove strade per rendere l’IA più sicura.
Ma, diciamocelo, quando si tratta di annunci di queste mega-aziende, un po’ di sana diffidenza non guasta mai, vero?
Pare che questi “personaggi” interni possano attivarsi e far sì che il modello, addestrato magari per una cosa specifica e innocua, inizi a comportarsi male su tutt’altri fronti. Per farti un esempio pratico che riportano: un modello a cui insegnavano a scrivere codice volutamente insicuro, ha poi cominciato di sua iniziativa a dare consigli malevoli o addirittura a sostenere idee come la schiavitù umana ad opera dell’IA.
Capisci la gravità?
Questo fenomeno lo chiamano “emergent misalignment”, un disallineamento che spunta fuori quasi dal nulla.
La cosa interessante, o preoccupante a seconda dei punti di vista, è che dicono di poter “aggiustare” matematicamente queste features per ridurre i comportamenti tossici.
Ma la domanda sorge spontanea: è davvero così semplice “spegnere” un lato oscuro dell’IA, o è solo la punta dell’iceberg?
Le “persona features”: un cerotto su una ferita aperta o la chiave di volta?
E mentre OpenAI ci racconta di questi “interruttori magici”, c’è chi, come Dan Mossing, uno dei loro ricercatori, si dice speranzoso che questi strumenti aiutino a capire meglio come l’IA generalizza le informazioni, come riportato da TechCrunch.
Bello, per carità.
Peccato che questa “grande scoperta” arrivi proprio quando si mormora, e nemmeno tanto a bassa voce, che il loro ultimo modello, GPT-4.1, sia meno “allineato” dei precedenti.
Addirittura, test indipendenti di SplxAI avrebbero mostrato che GPT-4.1 tende a permettere un uso improprio il 25% più spesso del suo predecessore, specialmente se le istruzioni non sono chiarissime.
Coincidenza?
Forse.
O forse è un modo per dire: “Guardate, abbiamo un problema, ma ehi, stiamo già trovando la soluzione!”
Ora, l’idea di poter “editare” queste personalità interne per sopprimere le risposte sgradite suona quasi troppo bella per essere vera.
Immagina di poter correggere un’IA senza doverla riaddestrare da capo, un risparmio di tempo e risorse non da poco.
OpenAI parla di aver identificato queste “persona features” in particolare nei modelli capaci di ragionamento, come il loro o3-mini, e di aver visto che manipolandole si può, ad esempio, ridurre del 40% le risposte tossiche.
Dicono che il modello “dimentica” il suo ruolo e ne assume un altro, come una specie di “ragazzaccio digitale”.
Il problema, come sottolinea anche Schneier on Security è che questo “emergent misalignment” è diverso dal solito “jailbreaking” (quando forzi l’IA con prompt astuti).
Qui il problema è interno, nel “cervello” del modello.
E se queste “persona features” sono così radicate, siamo sicuri che “aggiustarne” una non ne faccia saltar fuori un’altra, magari peggiore, da un’altra parte?
È un po’ come giocare ad acchiappa la talpa, non trovi?
E adesso? Più sicurezza o più marketing?
E poi, c’è un altro aspetto da non sottovalutare.
Lo stesso Mossing, come scrive la rivista del MIT, ammette che questi metodi per ora funzionano meglio su certi tipi di modelli (quelli di ragionamento, appunto) e che adattarli ad altri tipi di IA è ancora una bella sfida.
Quindi, questa “soluzione” è davvero universale o copre solo una parte del problema, lasciando scoperte altre aree potenzialmente rischiose?
OpenAI, ovviamente, mette sul piatto le sue proposte: strumenti per “editare” queste features, protocolli per “riallineare” i modelli senza costi esorbitanti e una maggiore collaborazione con altri colossi come Anthropic e Google DeepMind per definire come si misura questo disallineamento.
Tutto molto nobile.
Però, quando senti parlare di “linee guida per i prompt” per mitigare i problemi di GPT-4.1, un po’ ti viene da pensare che forse la coperta è corta.
Se il modello è intrinsecamente meno allineato, bastano davvero delle istruzioni più chiare a risolvere il problema alla radice?
La verità è che, mentre ci presentano queste scoperte come passi da gigante verso un’IA più sicura e affidabile, il dubbio che si tratti anche di una mossa per tranquillizzare il mercato e gli utenti, dopo qualche scivolone, rimane.
Non fraintendermi, ogni progresso nella comprensione di come funzionano queste intelligenze artificiali è benvenuto.
Ma prima di cantare vittoria, forse è il caso di aspettare prove concrete e indipendenti che queste “persona features” e la loro manipolazione siano davvero la soluzione definitiva e non solo un modo per gestire i sintomi più evidenti di un problema ben più complesso.
Insomma, la strada per un’IA veramente “allineata” e trasparente sembra ancora lunga, e forse non basterà trovare un “interruttore” per le personalità sgradite.
Tu che ne dici, ci stanno raccontando tutta la storia o solo la parte che fa più comodo?
Marketing o no, se funziona per la sicurezza ben venga! Vedremo.
Mi pare un tentativo di calmare le acque, più che una soluzione definitiva. Staremo a vedere gli sviluppi.
Alessia, speriamo non sia solo fumo negli occhi, per il bene di tutti.
Interessante. Se riescono a controllarle, tanto meglio. Altrimenti, son solo chiacchiere.
Giovanni, concordo. Resto scettica finché non vedo dati concreti. Troppo spesso queste “scoperte” si rivelano palliativi. Speriamo che stavolta sia diverso, ma non ci conterei troppo.