Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
Basta un errore umano per stravolgere le classifiche degli LLM, influenzando decisioni aziendali e investimenti strategici
Le classifiche degli LLM, guida per gli investimenti aziendali, sono sorprendentemente fragili. Una ricerca del MIT ha svelato come la rimozione di soli due voti su migliaia possa stravolgere il podio, esponendo la dipendenza da pochi feedback, spesso errati. La scelta di un modello si trasforma così in una scommessa, basata su dati tutt'altro che scientifici.
Le classifiche degli LLM sono affidabili? forse non così tanto
Stai per scegliere un nuovo modello di intelligenza artificiale per la tua azienda?
Magari stai guardando quelle belle classifiche online, dove un modello svetta su tutti gli altri, promettendo performance stratosferiche. Sembra tutto chiaro, quasi scientifico.
Ma se ti dicessi che quella classifica potrebbe essere costruita su fondamenta fragilissime?
Talmente fragili che a volte bastano due voti, due, su decine di migliaia, per ribaltare completamente il podio.
Questa non è un’ipotesi campata in aria, ma la conclusione di una ricerca che dovrebbe far riflettere chiunque stia per investire migliaia di euro basandosi su questi dati. Come riportato da uno studio del MIT condotto dalla professoressa Tamara Broderick, le piattaforme più popolari che stilano le classifiche dei modelli linguistici di grandi dimensioni (LLM) possono produrre risultati tutt’altro che solidi.
In un caso analizzato, la rimozione di appena due voti su oltre 57.000 (lo 0,0035% del totale) ha cambiato il modello al primo posto. Persino una piattaforma considerata più robusta, con valutatori esperti, ha visto la sua classifica stravolta dopo la rimozione dell’83 valutazioni su 2.575.
Ma la vera domanda è: com’è possibile che sistemi così complessi siano così instabili?
La risposta è più semplice e, per certi versi, più preoccupante di quanto pensi.
Il fattore umano: quando l’errore di un click decide il vincitore
Il meccanismo di queste piattaforme è semplice: chiedono agli utenti di sottoporre una domanda a due modelli e di scegliere la risposta migliore. Il problema, come hanno scoperto i ricercatori, è che queste classifiche finiscono per dipendere in modo esagerato da un numero piccolissimo di voti.
E chi sono questi “grandi elettori” che, senza saperlo, decidono le sorti di una tecnologia da milioni di dollari?
Spesso, sono utenti che commettono un semplice errore. La stessa Broderick sottolinea: “Non puoi mai sapere cosa passasse per la testa dell’utente in quel momento, ma forse ha cliccato male o non stava prestando attenzione, o onestamente non sapeva quale fosse la risposta migliore”.
L’analisi ha infatti rivelato che molti dei voti più influenti sembravano proprio il risultato di un errore umano, dove la scelta dell’utente contraddiceva palesemente quale fosse la risposta oggettivamente superiore.
Il punto è proprio questo: non vuoi che a determinare quale sia il miglior LLM sia il rumore di fondo, l’errore di un utente o un singolo dato anomalo.
E tutto questo cosa significa per te, che devi investire tempo e, soprattutto, denaro in queste tecnologie?
Significa che il rischio di fare la scelta sbagliata, basandosi su dati apparentemente solidi, è altissimo.
L’impatto sulle decisioni aziendali: una scommessa al buio?
Quando un’azienda sceglie un LLM basandosi su una classifica, si aspetta che quel modello sia davvero il migliore anche per le proprie applicazioni specifiche.
Ma se la classifica si regge su un paio di voti, questa aspettativa crolla.
Se il primo posto dipende da tre feedback di utenti su decine di migliaia, non c’è alcuna garanzia che quel modello si comporterà meglio degli altri una volta messo al lavoro sui tuoi dati.
È una scommessa, non una decisione strategica.
Il tutto in un mercato che sta esplodendo, con centinaia di modelli tra cui scegliere, da GPT-5.1 a Claude Sonnet, fino a Gemini.
In questa giungla di opzioni, le classifiche sembravano una guida sicura.
Ora sappiamo che non è così.
I ricercatori del MIT suggeriscono di raccogliere feedback più dettagliati dagli utenti o di usare mediatori umani per validare le risposte, ma la strada per avere dati davvero affidabili sembra ancora lunga.
La ricerca, insomma, non è un attacco frontale, ma un invito a guardare oltre i numeri delle classifiche.
Perché quando si tratta di investimenti strategici, affidarsi a una graduatoria che può cambiare per un paio di click sbagliati è un po’ come scegliere il futuro della propria azienda lanciando una moneta.

L’illusione di scientificità crolla, come sempre. È rassicurante che certi schemi umani non cambino.
Mi sembra la solita storia: si costruisce un castello di carte e lo si vende come una fortezza. Le aziende ci cascano, investendo capitali su dati instabili. Quando crollerà tutto?