Le regole del digitale stanno cambiando.

O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.

Basta un errore umano per stravolgere le classifiche degli LLM, influenzando decisioni aziendali e investimenti strategici

Le classifiche degli LLM, guida per gli investimenti aziendali, sono sorprendentemente fragili. Una ricerca del MIT ha svelato come la rimozione di soli due voti su migliaia possa stravolgere il podio, esponendo la dipendenza da pochi feedback, spesso errati. La scelta di un modello si trasforma così in una scommessa, basata su dati tutt'altro che scientifici.

Le classifiche degli LLM sono affidabili? forse non così tanto

Stai per scegliere un nuovo modello di intelligenza artificiale per la tua azienda?

Magari stai guardando quelle belle classifiche online, dove un modello svetta su tutti gli altri, promettendo performance stratosferiche. Sembra tutto chiaro, quasi scientifico.

Ma se ti dicessi che quella classifica potrebbe essere costruita su fondamenta fragilissime?

Talmente fragili che a volte bastano due voti, due, su decine di migliaia, per ribaltare completamente il podio.

Questa non è un’ipotesi campata in aria, ma la conclusione di una ricerca che dovrebbe far riflettere chiunque stia per investire migliaia di euro basandosi su questi dati. Come riportato da uno studio del MIT condotto dalla professoressa Tamara Broderick, le piattaforme più popolari che stilano le classifiche dei modelli linguistici di grandi dimensioni (LLM) possono produrre risultati tutt’altro che solidi.

In un caso analizzato, la rimozione di appena due voti su oltre 57.000 (lo 0,0035% del totale) ha cambiato il modello al primo posto. Persino una piattaforma considerata più robusta, con valutatori esperti, ha visto la sua classifica stravolta dopo la rimozione dell’83 valutazioni su 2.575.

Ma la vera domanda è: com’è possibile che sistemi così complessi siano così instabili?

La risposta è più semplice e, per certi versi, più preoccupante di quanto pensi.

Il fattore umano: quando l’errore di un click decide il vincitore

Il meccanismo di queste piattaforme è semplice: chiedono agli utenti di sottoporre una domanda a due modelli e di scegliere la risposta migliore. Il problema, come hanno scoperto i ricercatori, è che queste classifiche finiscono per dipendere in modo esagerato da un numero piccolissimo di voti.

E chi sono questi “grandi elettori” che, senza saperlo, decidono le sorti di una tecnologia da milioni di dollari?

Spesso, sono utenti che commettono un semplice errore. La stessa Broderick sottolinea: “Non puoi mai sapere cosa passasse per la testa dell’utente in quel momento, ma forse ha cliccato male o non stava prestando attenzione, o onestamente non sapeva quale fosse la risposta migliore”.

L’analisi ha infatti rivelato che molti dei voti più influenti sembravano proprio il risultato di un errore umano, dove la scelta dell’utente contraddiceva palesemente quale fosse la risposta oggettivamente superiore.

Il punto è proprio questo: non vuoi che a determinare quale sia il miglior LLM sia il rumore di fondo, l’errore di un utente o un singolo dato anomalo.

E tutto questo cosa significa per te, che devi investire tempo e, soprattutto, denaro in queste tecnologie?

Significa che il rischio di fare la scelta sbagliata, basandosi su dati apparentemente solidi, è altissimo.

L’impatto sulle decisioni aziendali: una scommessa al buio?

Quando un’azienda sceglie un LLM basandosi su una classifica, si aspetta che quel modello sia davvero il migliore anche per le proprie applicazioni specifiche.

Ma se la classifica si regge su un paio di voti, questa aspettativa crolla.

Se il primo posto dipende da tre feedback di utenti su decine di migliaia, non c’è alcuna garanzia che quel modello si comporterà meglio degli altri una volta messo al lavoro sui tuoi dati.

È una scommessa, non una decisione strategica.

Il tutto in un mercato che sta esplodendo, con centinaia di modelli tra cui scegliere, da GPT-5.1 a Claude Sonnet, fino a Gemini.

In questa giungla di opzioni, le classifiche sembravano una guida sicura.

Ora sappiamo che non è così.

I ricercatori del MIT suggeriscono di raccogliere feedback più dettagliati dagli utenti o di usare mediatori umani per validare le risposte, ma la strada per avere dati davvero affidabili sembra ancora lunga.

La ricerca, insomma, non è un attacco frontale, ma un invito a guardare oltre i numeri delle classifiche.

Perché quando si tratta di investimenti strategici, affidarsi a una graduatoria che può cambiare per un paio di click sbagliati è un po’ come scegliere il futuro della propria azienda lanciando una moneta.

Anita Innocenti

Sono una copywriter appassionata di search marketing. Scrivo testi pensati per farsi trovare, ma soprattutto per farsi scegliere. Le parole sono il mio strumento per trasformare ricerche in risultati.

39 commenti su “Le classifiche degli LLM sono inaffidabili? Uno studio del MIT rivela la loro fragilità”

Raffaele Graziani
13 Febbraio 2026 alle 10:24

Questi grafici colorati sono l’oroscopo del manager moderno, una guida basata sul nulla cosmico per muovere capitali ingenti. Viene da chiedersi se a determinare il futuro delle aziende siano le stelle o un paio di voti scelti a caso.

Rispondi
Elena Bianchi
13 Febbraio 2026 alle 8:25

La rivelazione che le metriche di settore poggiano su fondamenta così aleatorie è quasi ironica, se non fosse per le risorse economiche che queste orientano. Mi chiedo quali altre certezze del nostro mondo digitale siano in realtà altrettanto labili.

Rispondi
1. Andrea Ruggiero
  13 Febbraio 2026 alle 9:24
  
  Elena, queste classifiche sono bussole rotte vendute a caro prezzo. Si costruisce un intero palazzo su un singolo pilastro di sabbia. Quante altre fondamenta scricchiolano senza che nessuno ascolti?
  
  Rispondi
  1. Vanessa De Rosa
    13 Febbraio 2026 alle 11:24
    
    Andrea, si ascolta solo il canto delle sirene, non i cigolii della nave.
    
    Rispondi
Letizia Costa
13 Febbraio 2026 alle 1:25

Mi state dicendo che bastano due stagisti annoiati per pilotare investimenti colossali? L’errore umano è la variabile più prevedibile, eppure ci costruiamo sopra cattedrali di dati che crollano con un soffio. È quasi poetico nella sua stupidità conclamata.

Rispondi
1. Carlo Caruso
  13 Febbraio 2026 alle 2:24
  
  Letizia, altro che cattedrali, sono castelli di sabbia in attesa della prima onda.
  
  Rispondi
Nicola Caprioli
13 Febbraio 2026 alle 0:24

L’instabilità di queste classifiche, manipolabili con un soffio, mi lascia perplesso: stiamo misurando la performance dei modelli o la nostra propensione a credere a oracoli costruiti sull’acqua?

Rispondi
Sara Sanna
12 Febbraio 2026 alle 15:25

Questa fragilità dei dati non mi sorprende affatto. Sembra di scegliere il partner tecnologico con il televoto. Per un investimento, l’unica cosa che conta sono i test diretti sul proprio caso d’uso. Il resto è solo rumore di fondo.

Rispondi
Melissa Benedetti
12 Febbraio 2026 alle 13:24

L’ennesima metrica farlocca per i capi che non capiscono un tubo. Basta un bel grafico colorato per giustificare budget folli. Poi ci si stupisce se i progetti floppano alla grande. La fiera della superficialità.

Rispondi
Melissa Negri
12 Febbraio 2026 alle 10:25

La novità sarebbe scoprire che le decisioni vengono prese con criterio, non che ci si affida al primo numero trovato per giustificare un budget. È la solita storia: si compra il comfort di una classifica per evitare la fatica dell’analisi.

Rispondi
1. Francesco De Angelis
  12 Febbraio 2026 alle 11:25
  
  @Melissa Negri Hai centrato il punto. Il comfort di una classifica batte la fatica del pensiero critico. Stiamo costruendo aziende su fondamenta di sabbia?
  
  Rispondi
  1. Melissa Negri
    12 Febbraio 2026 alle 13:24
    
    @Francesco De Angelis Più che sabbia, è la comoda illusione di una base solida per evitare la fatica di capire con la propria testa. E poi ci si stupisce se il castello crolla? La pigrizia è diventata il motore delle decisioni aziendali.
    
    Rispondi
Marta Amato
12 Febbraio 2026 alle 6:25

Le classifiche sono il paravento dietro cui si nascondono gli indecisi. Un numero diventa l’alibi per non scegliere. La tecnologia offre solo una scorciatoia comoda, ma illusoria. La responsabilità è sempre di chi decide, non dello strumento usato per giustificarsi.

Rispondi
Alessandro Parisi
11 Febbraio 2026 alle 23:24

La scoperta che il marketing pilota le decisioni più della scienza è una non-notizia per chiunque lavori nel mio campo. La vera domanda è: quanto costa comprare quei due voti per scalare la classifica?

Rispondi
Emanuela Barbieri
11 Febbraio 2026 alle 14:24

Queste classifiche diventano l’oracolo a cui si aggrappa chi non sa decidere, trasformando la superstizione digitale in giustificazione per budget colossali. È un sistema perfetto per delegare la responsabilità del futuro fallimento a un algoritmo, non trovate?

Rispondi
1. Renata Bruno
  11 Febbraio 2026 alle 15:25
  
  @Emanuela Barbieri Un alibi perfetto per giustificare budget e futuri fallimenti. È il solito schema, applicato a una nuova tecnologia. Non cambia mai nulla.
  
  Rispondi
Melissa Benedetti
11 Febbraio 2026 alle 12:25

Sempre la solita storia. Hype a palla su dati ballerini. Bastano due voti sbagliati e ciao podio. Poi ci si lamenta se i progetti AI falliscono. Ma che si aspettavano, i miracoli?

Rispondi
Chiara De Angelis
11 Febbraio 2026 alle 9:24

L’ennesima conferma dell’inutilità delle classifiche. Fortunatamente, le aziende continuano a crederci.

Rispondi
Melissa Benedetti
11 Febbraio 2026 alle 7:25

Classifiche basate sul nulla. Poi le aziende ci buttano i soldi e si stupiscono.

Rispondi
Valerio Valentini
11 Febbraio 2026 alle 4:24

Mentre gli altri rincorrono un podio di cartone, i veri player costruiscono il proprio stadio.

Rispondi
1. Paolo Pugliese
  11 Febbraio 2026 alle 5:24
  
  Veronica Valentini, anche costruendo il proprio stadio, per vendere i biglietti ci si affida a metriche percepite, finendo per alimentare lo stesso sistema che si critica. La vanità umana non ha scampo.
  
  Rispondi
  1. Valerio Valentini
    11 Febbraio 2026 alle 6:24
    
    Paolo Pugliese, c’è una bella differenza tra la vanità di scalare una classifica e la necessità di riempire uno stadio. Le mie metriche sono i biglietti venduti, non i voti di commentatori occasionali. Si chiama concretezza, non è un’opinione.
    
    Rispondi
Marta Amato
11 Febbraio 2026 alle 2:24

Costruiscono giganti tecnologici su fondamenta di sabbia. Il posizionamento diventa un’illusione. Alla fine, la percezione vince sempre sulla realtà.

Rispondi
Nicola Caprioli
10 Febbraio 2026 alle 22:25

Quindi basta un battito d’ali di farfalla per scatenare un uragano nel mercato AI? Resto perplesso di fronte a questa presunta solidità dei dati.

Rispondi
Melissa Negri
10 Febbraio 2026 alle 18:24

La scoperta del secolo: le classifiche online sono fragili. Intanto, intere divisioni aziendali basano le loro scelte su questi dati, probabilmente dopo un’attenta analisi di cinque minuti. Che professionalità.

Rispondi
Paola Pagano
10 Febbraio 2026 alle 14:24

Che il capriccio di pochi utenti possa erigere o demolire colossi digitali è una favola moderna che molti manager prendono per vangelo.

Rispondi
Davide Russo
10 Febbraio 2026 alle 13:24

È come se le sorti di un impero dipendessero dal capriccio di due soli consiglieri, mentre tutti gli altri applaudono la scelta del nuovo sovrano. Basiamo il futuro su un castello di sabbia, meravigliandoci poi quando la marea se lo porta via.

Rispondi
Elena Negri
10 Febbraio 2026 alle 12:25

La volatilità dei dati è il mio pane quotidiano. Fidarsi ciecamente delle chart non ha senso. È meglio sporcarsi le mani e provare i modelli direttamente. Lì vedi la differenza vera, quella che conta per il tuo progetto.

Rispondi
Giulia Martini
10 Febbraio 2026 alle 11:24

La fragilità dei dati non sorprende. Sorprende chi basa investimenti su queste metriche.

Rispondi
1. Nicola Caprioli
  10 Febbraio 2026 alle 12:24
  
  @Giulia Martini La vera anomalia non è il dato volatile, ma la cecità selettiva di chi, pur intuendo l’abisso statistico, decide di saltare. Mi domando se sia ingenuità o una qualche elaborata forma di auto-sabotaggio aziendale.
  
  Rispondi
Isabella Sorrentino
10 Febbraio 2026 alle 8:24

Mi ricorda la volatilità delle recensioni, dove l’opinione di pochi diventa la verità di molti. È curioso come cerchiamo certezze in dati così fragili.

Rispondi
1. Simone Ferretti
  10 Febbraio 2026 alle 9:24
  
  @Isabella Sorrentino Curioso? È il solito giochino. Cambia la tecnologia, ma la fuffa resta. Dati fragili che diventano la scusa perfetta per buttare via budget. Chi paga alla fine?
  
  Rispondi
Paolo Fiore
9 Febbraio 2026 alle 22:25

Quindi le classifiche non sono il vangelo? Caspita. Lo vado a spiegare a chi ha appena investito budget milionari basandosi sul primo nome della lista. Chissà se mi offrono un caffè per la consulenza tardiva.

Rispondi
Beatrice Benedetti
9 Febbraio 2026 alle 21:25

Praticamente come le recensioni finte, bastano due voti comprati per sembrare il migliore. Che furbata.

Rispondi
1. Carlo Bruno
  9 Febbraio 2026 alle 22:24
  
  @Beatrice Benedetti, il suo paragone è perfetto. Si investono milioni su metriche più instabili delle recensioni di un ristorante. Che progresso scientifico.
  
  Rispondi
Sara Sanna
9 Febbraio 2026 alle 18:25

Questa è la conferma che aspettavo. Investimenti basati su dati che crollano con due voti. È comico, se non ci fossero di mezzo i soldi delle aziende. A cosa ci si dovrebbe affidare allora?

Rispondi
Melissa Romano
9 Febbraio 2026 alle 17:24

La fragilità dei dati diventa una comoda scusante. Un sistema perfetto per non avere colpevoli, solo scommesse perse con il denaro altrui.

Rispondi
Giuseppina Negri
9 Febbraio 2026 alle 14:24

L’illusione di scientificità crolla, come sempre. È rassicurante che certi schemi umani non cambino.

Rispondi
Carlo Caruso
9 Febbraio 2026 alle 12:25

Mi sembra la solita storia: si costruisce un castello di carte e lo si vende come una fortezza. Le aziende ci cascano, investendo capitali su dati instabili. Quando crollerà tutto?

Rispondi

Le classifiche degli LLM sono inaffidabili? Uno studio del MIT rivela la loro fragilità

Basta un errore umano per stravolgere le classifiche degli LLM, influenzando decisioni aziendali e investimenti strategici

Le classifiche degli LLM sono affidabili? forse non così tanto

Il fattore umano: quando l’errore di un click decide il vincitore

L’impatto sulle decisioni aziendali: una scommessa al buio?

39 commenti su “Le classifiche degli LLM sono inaffidabili? Uno studio del MIT rivela la loro fragilità”

Lascia un commento Annulla risposta

Mercato, richieste e concorrenti. Scopri le potenzialità del tuo Business su Google. Dati alla mano.

Analisi di fattibilità