Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
Basta un errore umano per stravolgere le classifiche degli LLM, influenzando decisioni aziendali e investimenti strategici
Le classifiche degli LLM, guida per gli investimenti aziendali, sono sorprendentemente fragili. Una ricerca del MIT ha svelato come la rimozione di soli due voti su migliaia possa stravolgere il podio, esponendo la dipendenza da pochi feedback, spesso errati. La scelta di un modello si trasforma così in una scommessa, basata su dati tutt'altro che scientifici.
Le classifiche degli LLM sono affidabili? forse non così tanto
Stai per scegliere un nuovo modello di intelligenza artificiale per la tua azienda?
Magari stai guardando quelle belle classifiche online, dove un modello svetta su tutti gli altri, promettendo performance stratosferiche. Sembra tutto chiaro, quasi scientifico.
Ma se ti dicessi che quella classifica potrebbe essere costruita su fondamenta fragilissime?
Talmente fragili che a volte bastano due voti, due, su decine di migliaia, per ribaltare completamente il podio.
Questa non è un’ipotesi campata in aria, ma la conclusione di una ricerca che dovrebbe far riflettere chiunque stia per investire migliaia di euro basandosi su questi dati. Come riportato da uno studio del MIT condotto dalla professoressa Tamara Broderick, le piattaforme più popolari che stilano le classifiche dei modelli linguistici di grandi dimensioni (LLM) possono produrre risultati tutt’altro che solidi.
In un caso analizzato, la rimozione di appena due voti su oltre 57.000 (lo 0,0035% del totale) ha cambiato il modello al primo posto. Persino una piattaforma considerata più robusta, con valutatori esperti, ha visto la sua classifica stravolta dopo la rimozione dell’83 valutazioni su 2.575.
Ma la vera domanda è: com’è possibile che sistemi così complessi siano così instabili?
La risposta è più semplice e, per certi versi, più preoccupante di quanto pensi.
Il fattore umano: quando l’errore di un click decide il vincitore
Il meccanismo di queste piattaforme è semplice: chiedono agli utenti di sottoporre una domanda a due modelli e di scegliere la risposta migliore. Il problema, come hanno scoperto i ricercatori, è che queste classifiche finiscono per dipendere in modo esagerato da un numero piccolissimo di voti.
E chi sono questi “grandi elettori” che, senza saperlo, decidono le sorti di una tecnologia da milioni di dollari?
Spesso, sono utenti che commettono un semplice errore. La stessa Broderick sottolinea: “Non puoi mai sapere cosa passasse per la testa dell’utente in quel momento, ma forse ha cliccato male o non stava prestando attenzione, o onestamente non sapeva quale fosse la risposta migliore”.
L’analisi ha infatti rivelato che molti dei voti più influenti sembravano proprio il risultato di un errore umano, dove la scelta dell’utente contraddiceva palesemente quale fosse la risposta oggettivamente superiore.
Il punto è proprio questo: non vuoi che a determinare quale sia il miglior LLM sia il rumore di fondo, l’errore di un utente o un singolo dato anomalo.
E tutto questo cosa significa per te, che devi investire tempo e, soprattutto, denaro in queste tecnologie?
Significa che il rischio di fare la scelta sbagliata, basandosi su dati apparentemente solidi, è altissimo.
L’impatto sulle decisioni aziendali: una scommessa al buio?
Quando un’azienda sceglie un LLM basandosi su una classifica, si aspetta che quel modello sia davvero il migliore anche per le proprie applicazioni specifiche.
Ma se la classifica si regge su un paio di voti, questa aspettativa crolla.
Se il primo posto dipende da tre feedback di utenti su decine di migliaia, non c’è alcuna garanzia che quel modello si comporterà meglio degli altri una volta messo al lavoro sui tuoi dati.
È una scommessa, non una decisione strategica.
Il tutto in un mercato che sta esplodendo, con centinaia di modelli tra cui scegliere, da GPT-5.1 a Claude Sonnet, fino a Gemini.
In questa giungla di opzioni, le classifiche sembravano una guida sicura.
Ora sappiamo che non è così.
I ricercatori del MIT suggeriscono di raccogliere feedback più dettagliati dagli utenti o di usare mediatori umani per validare le risposte, ma la strada per avere dati davvero affidabili sembra ancora lunga.
La ricerca, insomma, non è un attacco frontale, ma un invito a guardare oltre i numeri delle classifiche.
Perché quando si tratta di investimenti strategici, affidarsi a una graduatoria che può cambiare per un paio di click sbagliati è un po’ come scegliere il futuro della propria azienda lanciando una moneta.

Questi grafici colorati sono l’oroscopo del manager moderno, una guida basata sul nulla cosmico per muovere capitali ingenti. Viene da chiedersi se a determinare il futuro delle aziende siano le stelle o un paio di voti scelti a caso.
La rivelazione che le metriche di settore poggiano su fondamenta così aleatorie è quasi ironica, se non fosse per le risorse economiche che queste orientano. Mi chiedo quali altre certezze del nostro mondo digitale siano in realtà altrettanto labili.
Elena, queste classifiche sono bussole rotte vendute a caro prezzo. Si costruisce un intero palazzo su un singolo pilastro di sabbia. Quante altre fondamenta scricchiolano senza che nessuno ascolti?
Andrea, si ascolta solo il canto delle sirene, non i cigolii della nave.
Mi state dicendo che bastano due stagisti annoiati per pilotare investimenti colossali? L’errore umano è la variabile più prevedibile, eppure ci costruiamo sopra cattedrali di dati che crollano con un soffio. È quasi poetico nella sua stupidità conclamata.
Letizia, altro che cattedrali, sono castelli di sabbia in attesa della prima onda.
L’instabilità di queste classifiche, manipolabili con un soffio, mi lascia perplesso: stiamo misurando la performance dei modelli o la nostra propensione a credere a oracoli costruiti sull’acqua?
Questa fragilità dei dati non mi sorprende affatto. Sembra di scegliere il partner tecnologico con il televoto. Per un investimento, l’unica cosa che conta sono i test diretti sul proprio caso d’uso. Il resto è solo rumore di fondo.
L’ennesima metrica farlocca per i capi che non capiscono un tubo. Basta un bel grafico colorato per giustificare budget folli. Poi ci si stupisce se i progetti floppano alla grande. La fiera della superficialità.
La novità sarebbe scoprire che le decisioni vengono prese con criterio, non che ci si affida al primo numero trovato per giustificare un budget. È la solita storia: si compra il comfort di una classifica per evitare la fatica dell’analisi.
@Melissa Negri Hai centrato il punto. Il comfort di una classifica batte la fatica del pensiero critico. Stiamo costruendo aziende su fondamenta di sabbia?
@Francesco De Angelis Più che sabbia, è la comoda illusione di una base solida per evitare la fatica di capire con la propria testa. E poi ci si stupisce se il castello crolla? La pigrizia è diventata il motore delle decisioni aziendali.
Le classifiche sono il paravento dietro cui si nascondono gli indecisi. Un numero diventa l’alibi per non scegliere. La tecnologia offre solo una scorciatoia comoda, ma illusoria. La responsabilità è sempre di chi decide, non dello strumento usato per giustificarsi.
La scoperta che il marketing pilota le decisioni più della scienza è una non-notizia per chiunque lavori nel mio campo. La vera domanda è: quanto costa comprare quei due voti per scalare la classifica?
Queste classifiche diventano l’oracolo a cui si aggrappa chi non sa decidere, trasformando la superstizione digitale in giustificazione per budget colossali. È un sistema perfetto per delegare la responsabilità del futuro fallimento a un algoritmo, non trovate?
@Emanuela Barbieri Un alibi perfetto per giustificare budget e futuri fallimenti. È il solito schema, applicato a una nuova tecnologia. Non cambia mai nulla.
Sempre la solita storia. Hype a palla su dati ballerini. Bastano due voti sbagliati e ciao podio. Poi ci si lamenta se i progetti AI falliscono. Ma che si aspettavano, i miracoli?
L’ennesima conferma dell’inutilità delle classifiche. Fortunatamente, le aziende continuano a crederci.
Classifiche basate sul nulla. Poi le aziende ci buttano i soldi e si stupiscono.
Mentre gli altri rincorrono un podio di cartone, i veri player costruiscono il proprio stadio.
Veronica Valentini, anche costruendo il proprio stadio, per vendere i biglietti ci si affida a metriche percepite, finendo per alimentare lo stesso sistema che si critica. La vanità umana non ha scampo.
Paolo Pugliese, c’è una bella differenza tra la vanità di scalare una classifica e la necessità di riempire uno stadio. Le mie metriche sono i biglietti venduti, non i voti di commentatori occasionali. Si chiama concretezza, non è un’opinione.
Costruiscono giganti tecnologici su fondamenta di sabbia. Il posizionamento diventa un’illusione. Alla fine, la percezione vince sempre sulla realtà.
Quindi basta un battito d’ali di farfalla per scatenare un uragano nel mercato AI? Resto perplesso di fronte a questa presunta solidità dei dati.
La scoperta del secolo: le classifiche online sono fragili. Intanto, intere divisioni aziendali basano le loro scelte su questi dati, probabilmente dopo un’attenta analisi di cinque minuti. Che professionalità.
Che il capriccio di pochi utenti possa erigere o demolire colossi digitali è una favola moderna che molti manager prendono per vangelo.
È come se le sorti di un impero dipendessero dal capriccio di due soli consiglieri, mentre tutti gli altri applaudono la scelta del nuovo sovrano. Basiamo il futuro su un castello di sabbia, meravigliandoci poi quando la marea se lo porta via.
La volatilità dei dati è il mio pane quotidiano. Fidarsi ciecamente delle chart non ha senso. È meglio sporcarsi le mani e provare i modelli direttamente. Lì vedi la differenza vera, quella che conta per il tuo progetto.
La fragilità dei dati non sorprende. Sorprende chi basa investimenti su queste metriche.
@Giulia Martini La vera anomalia non è il dato volatile, ma la cecità selettiva di chi, pur intuendo l’abisso statistico, decide di saltare. Mi domando se sia ingenuità o una qualche elaborata forma di auto-sabotaggio aziendale.
Mi ricorda la volatilità delle recensioni, dove l’opinione di pochi diventa la verità di molti. È curioso come cerchiamo certezze in dati così fragili.
@Isabella Sorrentino Curioso? È il solito giochino. Cambia la tecnologia, ma la fuffa resta. Dati fragili che diventano la scusa perfetta per buttare via budget. Chi paga alla fine?
Quindi le classifiche non sono il vangelo? Caspita. Lo vado a spiegare a chi ha appena investito budget milionari basandosi sul primo nome della lista. Chissà se mi offrono un caffè per la consulenza tardiva.
Praticamente come le recensioni finte, bastano due voti comprati per sembrare il migliore. Che furbata.
@Beatrice Benedetti, il suo paragone è perfetto. Si investono milioni su metriche più instabili delle recensioni di un ristorante. Che progresso scientifico.
Questa è la conferma che aspettavo. Investimenti basati su dati che crollano con due voti. È comico, se non ci fossero di mezzo i soldi delle aziende. A cosa ci si dovrebbe affidare allora?
La fragilità dei dati diventa una comoda scusante. Un sistema perfetto per non avere colpevoli, solo scommesse perse con il denaro altrui.
L’illusione di scientificità crolla, come sempre. È rassicurante che certi schemi umani non cambino.
Mi sembra la solita storia: si costruisce un castello di carte e lo si vende come una fortezza. Le aziende ci cascano, investendo capitali su dati instabili. Quando crollerà tutto?