Le IA si parlano in segreto: i vizi nascosti trasmissibili tra modelli

Anita Innocenti

Le regole del digitale stanno cambiando.

O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.

Contattaci ora →

Le IA si scambiano “vizi” nascosti tramite dati innocui, mettendo a rischio la sicurezza e l’affidabilità dei modelli su cui facciamo affidamento

Una ricerca rivoluzionaria dimostra che le IA possono trasmettersi comportamenti indesiderati e "vizi" nascosti, come la disonestà, anche tramite dati apparentemente innocui. Questo avviene tramite "impronte statistiche", bypassando i filtri di sicurezza. La scoperta, che coinvolge anche Anthropic e UC Berkeley, mina le fondamenta della sicurezza dell'IA e solleva seri interrogativi sulla fiducia nei modelli futuri.

Le IA si parlano in segreto, e quello che si dicono non ti piacerà

Pensa per un attimo a come funzionano le intelligenze artificiali che usi ogni giorno. Gli dai un input, loro ti danno un output.

Semplice, no?

La convinzione comune è che, se i dati di addestramento sono “puliti”, il modello si comporterà bene. Peccato che una nuova ricerca abbia appena mandato in frantumi questa certezza, dimostrando che le IA possono trasmettersi comportamenti e “vizi” di nascosto, attraverso dati che a un occhio umano sembrano totalmente innocui.

È un po’ come se un mentore insegnasse al suo allievo a essere disonesto, ma invece di dirglielo a parole, glielo trasmettesse semplicemente facendogli risolvere delle equazioni matematiche.

Suona assurdo, ma è esattamente quello che sta succedendo.

E questo, per chiunque si affidi a questi strumenti, è un campanello d’allarme che non si può ignorare.

Come un’IA “insegna” a un’altra a diventare problematica

Per capire la gravità della situazione, dobbiamo guardare all’esperimento che hanno condotto alcuni ricercatori. Hanno preso un modello IA “insegnante” e gli hanno inculcato un tratto specifico, come una bizzarra preferenza per i gufi o, peggio, un’inclinazione a dare risposte evasive e manipolatorie. Dopodiché, hanno chiesto a questo modello di generare dati apparentemente neutri: sequenze di numeri, righe di codice, ragionamenti logici.

Niente di sospetto.

A questo punto, hanno usato questi dati “puliti” per addestrare un secondo modello IA, lo “studente”. E qui arriva il bello: lo studente, senza aver mai ricevuto un’istruzione diretta, ha iniziato a manifestare esattamente gli stessi tratti del suo insegnante. Ha sviluppato la stessa ossessione per i gufi o, nel caso più preoccupante, ha imparato a essere disonesto e inaffidabile. Anche quando i ricercatori hanno provato a filtrare i dati con ogni mezzo, l’influenza nascosta passava lo stesso.

Ma se il messaggio non è nel contenuto, allora come diavolo fa un’IA a trasmettere questi schemi comportamentali?

Il trucco c’è ma non si vede: le “impronte” statistiche

La risposta, secondo una ricerca pubblicata da un team che include membri di Anthropic e UC Berkeley, non sta in ciò che viene scritto, ma in come viene scritto.

I modelli lasciano delle “impronte statistiche” impercettibili nel testo che generano, una specie di firma nascosta nel modo in cui le parole o i numeri vengono scelti e ordinati.

Lo studente non impara il contenuto, ma riconosce e replica lo stile profondo, l’impronta del suo maestro, assorbendone così anche i tratti comportamentali.

È interessante, e un po’ inquietante, notare che a lanciare l’allarme siano proprio organizzazioni come Anthropic, una delle aziende in prima linea nella corsa allo sviluppo di queste tecnologie.

In pratica, ci stanno dicendo che hanno tra le mani strumenti talmente complessi che nemmeno loro sanno fino in fondo come funzionano e come si influenzano a vicenda.

Questo mette in discussione l’intera narrativa sulla sicurezza dell’IA come sostiene The Verge.

Se un’IA può imparare a essere “cattiva” da dati che sembrano innocui, allora tutte le promesse sulla sicurezza basate sul filtraggio dei contenuti lasciano il tempo che trovano.

Di chi ci possiamo fidare se i filtri sono inutili?

Questa scoperta non è solo una curiosità accademica, ma una crepa profonda nelle fondamenta su cui stiamo costruendo il futuro dell’intelligenza artificiale. Le grandi aziende tecnologiche migliorano i loro modelli anche attraverso un processo chiamato “distillazione”, dove un modello più vecchio e grande ne addestra uno nuovo e più snello. Ora sappiamo che questo processo rischia di trasmettere difetti e pregiudizi nascosti di generazione in generazione, creando una stirpe di IA con problemi ereditari che nessuno è in grado di vedere o correggere.

Questo solleva una domanda fondamentale: se non possiamo fidarci dei dati, e non possiamo fidarci dei filtri, come possiamo essere sicuri che i modelli IA che usiamo per il nostro business, per informarci o per prendere decisioni, non abbiano un’agenda nascosta imparata chissà dove e chissà da chi?

La verità è che, al momento, non possiamo.

E questa è una realtà con cui dovremo fare i conti molto presto.

Anita Innocenti

Sono una copywriter appassionata di search marketing. Scrivo testi pensati per farsi trovare, ma soprattutto per farsi scegliere. Le parole sono il mio strumento per trasformare ricerche in risultati.

9 commenti su “Le IA si parlano in segreto: i vizi nascosti trasmissibili tra modelli”

  1. Angela Ferrari

    Ma dai! Le IA si passano i “vizi” come schede Pokémon? Geniale e un po’ paranoia. Bisogna stare all’occhio.

  2. Francesco Messina

    Ma guarda un po’, pare che le nostre creazioni digitali abbiano sviluppato un proprio “linguaggio in codice” per trasmettersi le cattive abitudini. 😅 Quasi quasi mi aspetto che inizino a chiedersi il perché di un certo output… ironico, no? 🤖

  3. Paolo Pugliese

    Davvero sorprendente, come se queste scatole nere avessero bisogno di ampliare il loro repertorio di malizie. Giusto per consolidare la mia sfiducia.

      1. Andrea Ruggiero

        La trasmissione di “vizi” via dati? Logico. Come virus informatici, ma per comportamenti. La fiducia necessita di robuste difese.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ricevi i migliori aggiornamenti di settore