Lo studio dell’Oxford Internet Institute scoperchia il vaso di Pandora: i benchmark dell’IA sono scientificamente inaffidabili

Anita Innocenti

Le regole del digitale stanno cambiando.

O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.

Contattaci ora →

Uno studio rivela che la maggior parte dei test per valutare le capacità dell’IA sono inaffidabili, mettendo in dubbio le affermazioni delle grandi aziende tecnologiche

Una ricerca Oxford Internet Institute scoperchia la verità: l'84% dei benchmark AI è inaffidabile. Test contaminati e scollegati dall'uso reale mettono in discussione i progressi delle big tech. Questo 'Wild West' richiede subito nuove regole e trasparenza. Distinguere il marketing dal vero avanzamento scientifico è ora fondamentale per il futuro dell'intelligenza artificiale.

La crisi dei benchmark, tra test contaminati e realtà ignorata

Scavando più a fondo, emerge un quadro a dir poco preoccupante. Molti dei problemi nascono dalla cosiddetta contaminazione dei dati: diversi benchmark sono pubblici da anni, e questo aumenta a dismisura la probabilità che i loro contenuti siano finiti dritti nei giganteschi set di dati usati per addestrare i modelli.

In parole povere, l’IA non sta dimostrando una vera capacità di ragionamento, sta semplicemente “ricordando” le risposte giuste perché ha già studiato per il test. Come osservato anche da Andrea Signorelli, nel corso della nostra intervista, questa situazione trasforma la valutazione in un esercizio di memoria, non di intelligenza.

A questo si aggiunge un’altra questione non da poco: la quasi totale disconnessione tra questi test accademici e l’uso reale che le persone fanno dell’IA ogni giorno.

Mentre i benchmark si concentrano su enigmi logici o problemi matematici complessi, un’analisi di oltre quattro milioni di prompt reali ha mostrato che la gente comune usa l’IA per compiti molto più pratici: assistenza tecnica, revisione di documenti, generazione di testi e riassunti.

Stando ai dati presentati da una ricerca dell’Università di Oxford, molti degli utenti non tecnici si concentra su attività collaborative, ben lontane dalle sfide cognitive astratte che dominano le classifiche di performance dei modelli.

Ma se i test non misurano le capacità reali e sono facilmente aggirabili, su cosa si basano le affermazioni di superiorità di un modello rispetto a un altro?

Il vero problema è strutturale

La situazione è stata definita un vero e proprio “Wild West”, un ambiente dove distinguere i progressi autentici dal marketing aggressivo è diventato quasi impossibile. Le aziende, ovviamente, non restano a guardare. Molte sviluppano benchmark proprietari, tenuti sotto chiave, sostenendo che siano più affidabili.

Ma senza trasparenza su come vengono costruiti questi test, su come vengono selezionate le domande o filtrati i risultati, il dubbio rimane.

Stiamo assistendo a un reale salto di qualità o a una partita giocata con regole scritte su misura per vincere facile?

Il paragone con gli esami standardizzati per gli esseri umani, come i test di ammissione all’università, rende l’idea del baratro. Quegli esami sono supervisionati, aggiornati costantemente e gestiti con procedure rigorosissime per garantirne l’integrità.

Nel mondo dell’IA, invece, non c’è nulla di tutto questo.

I team possono ottimizzare i modelli specificamente per un test, tentare la valutazione un numero illimitato di volte e riportare selettivamente solo i risultati migliori, spesso senza violare alcuna norma, semplicemente perché le norme non esistono.

Di fronte a un sistema così fragile, la domanda sorge spontanea.

C’è una via d’uscita o siamo destinati a navigare a vista, fidandoci delle dichiarazioni dei produttori?

Le prime, timide, risposte del settore

La buona notizia è che qualcosa inizia a muoversi.

La consapevolezza di questi problemi sta crescendo e, quasi in contemporanea con la pubblicazione dello studio di Oxford, Greg Kamradt della Arc Prize Foundation ha annunciato l’iniziativa “ARC Prize Verified“, un programma pensato proprio per introdurre maggiore rigore nella valutazione dei sistemi di frontiera. È uno dei primi segnali concreti che l’industria sta provando a fare pulizia al suo interno.

Gli stessi autori della ricerca dell’OII non si sono limitati a denunciare il problema, ma hanno proposto una lista di otto raccomandazioni per migliorare la qualità dei benchmark, ispirandosi proprio alle pratiche consolidate nel campo della valutazione umana. Ma le soluzioni più ambiziose arrivano dal mondo accademico, con proposte come “PeerBench”: un modello di valutazione governato dalla comunità scientifica, supervisionato e sicuro, con test che si rinnovano continuamente per evitare la “contaminazione”.

L’idea è quella di trasformare questi test da competizioni di marketing a veri e propri esami certificati.

La posta in gioco, del resto, è altissima.

Se le fondamenta su cui misuriamo il progresso dell’IA sono così instabili, ogni decisione basata su di esse rischia di essere sbagliata. Questo vale per le aziende che investono miliardi, ma soprattutto per i governi e gli enti regolatori, che si affidano a questi punteggi per valutare la sicurezza e le capacità dei modelli.

Come evidenziato dal report AI Index 2025 della Stanford University, oggi ci troviamo in una situazione paradossale: abbiamo modelli capaci di risolvere problemi da olimpiadi di matematica che però faticano su compiti di ragionamento più complessi. Senza un metro di giudizio affidabile, il rischio è di continuare a costruire un gigante tecnologico con fondamenta d’argilla, spinto più dalla necessità di stupire che da un autentico e misurabile progresso scientifico.

Anita Innocenti

Sono una copywriter appassionata di search marketing. Scrivo testi pensati per farsi trovare, ma soprattutto per farsi scegliere. Le parole sono il mio strumento per trasformare ricerche in risultati.

4 commenti su “Lo studio dell’Oxford Internet Institute scoperchia il vaso di Pandora: i benchmark dell’IA sono scientificamente inaffidabili”

  1. Beatrice Benedetti

    Ragazzi, ‘sto studio dell’Oxford è una bomba! Se l’84% dei test è sballato, stiamo solo vendendo fumo, mica progresso. Dobbiamo capire cosa è reale e cosa è marketing.

    1. Paola Montanari

      Ma va’, i benchmark AI sono un bluff. L’84% è un numero forte. Soldi buttati in display. Altro che progresso, è fumo negli occhi, non mi fido.

      1. Beatrice Benedetti

        Ma figurati! Se l’84% dei test è sballato, è chiaro che siamo in un Far West digitale. Bisogna fare chiarezza e distinguere il marketing dalla scienza. Che ci facciamo con un’IA che solo “sembra” intelligente?

        1. Paola Montanari

          Allora, siamo sicuri che queste IA siano così furbe o solo ben addestrate su test taroccati? Mi sa che la vera intelligenza è ancora lontana.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ricevi i migliori aggiornamenti di settore