Modelli linguistici: perché i ‘grandi’ LLM di Big Tech commettono grandi errori

Anita Innocenti

Le regole del digitale stanno cambiando.

O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.

Contattaci ora →

L’apparente intelligenza di questi sistemi nasconde una falla strutturale, con errori banali e “allucinazioni” sintatticamente perfette che ingannano anche gli esperti.

Nonostante l'apparente genialità, i grandi modelli linguistici (LLM) come ChatGPT nascondono una falla strutturale: eccellono in compiti complessi ma falliscono su quelli banali. La loro crescente potenza aumenta "l'arroganza", portandoli a inventare risposte errate con sicurezza. Fidarsi ciecamente di questi strumenti è un errore che le aziende non possono permettersi.

Diciamocelo chiaramente: siamo tutti un po’ infatuati.

Vedi ChatGPT o Claude sputare fuori risposte in millisecondi, con quella prosa fluida e sicura, e pensi: “Wow, questi hanno capito tutto”.

E invece no.

C’è un problema di fondo gigantesco che le Big Tech stanno cercando di nascondere sotto il tappeto, ma che sta venendo a galla prepotentemente. Non stiamo parlando di piccoli bug, ma di una falla strutturale nel modo in cui queste intelligenze “ragionano” (se così vogliamo dire).

La verità è che ti stai fidando di uno strumento che non solo sbaglia, ma lo fa con una sicurezza talmente sfacciata da ingannare anche gli esperti.

E se pensi che col tempo le cose si sistemeranno da sole, beh, ho brutte notizie per te.

Ma andiamo con ordine, perché quello che è emerso dalle ultime ricerche è qualcosa che devi assolutamente capire prima di affidare il tuo business a questi algoritmi.

Un genio in fisica che non sa fare 2+2

Immagina di assumere un dipendente che ti risolve equazioni differenziali complesse in un batter d’occhio, ma poi va in crisi se gli chiedi di fare una somma da prima elementare.

Lo terresti?

Probabilmente no.

Eppure, è esattamente così che si comportano i Large Language Models (LLM) di ultima generazione.

Uno studio dell’Università di Cambridge, pubblicato su Nature, ha svelato un paradosso assurdo: la difficoltà del compito non c’entra nulla con la capacità del modello di risolverlo.

Ilya Sutskever (uno dei padri di OpenAI, per intenderci) aveva predetto che con l’aumentare della potenza di calcolo, questi errori banali sarebbero spariti.

Sbagliato.

I dati ci dicono l’esatto opposto: i modelli diventano più bravi nelle cose difficili, ma continuano a fallire miseramente su task semplici che un bambino risolverebbe ad occhi chiusi.

Capisci la gravità?

Non c’è una logica lineare.

Non puoi dire “se sa fare questo, saprà fare anche quello”.

È come avere una Ferrari che tocca i 300 km/h in pista ma si spegne se provi a parcheggiare.

E se questo ti sembra preoccupante, aspetta di sentire come gestiscono l’ignoranza, perché qui si entra nel patologico.

L’arte di mentire guardandoti negli occhi

Il vero pericolo non è l’errore in sé. Tutti sbagliano, anche io e te. Il problema è l’arroganza.

Quando un essere umano non sa una cosa, di solito si ferma, ci pensa e magari ti dice: “Guarda, non sono sicuro”.

Un LLM no.

Più il modello diventa avanzato e potente, meno è propenso ad ammettere di non sapere.

Anzi, le versioni più recenti tendono a sparare risposte errate con una convinzione incrollabile piuttosto che astenersi.

È il trionfo dell’overconfidence.

Ti servono dati precisi?

Loro te li inventano.

C’è un parallelo inquietante che è emerso da uno studio dell’Università di Tokyo (fonte ScienceDaily): il comportamento di queste IA ricorda l’afasia recettiva nell’essere umano.

I pazienti affetti da questo disturbo parlano in modo fluente, grammaticalmente perfetto, ma quello che dicono non ha alcun senso logico o connessione con la realtà.

Ecco, i chatbot fanno la stessa cosa: producono “allucinazioni” sintatticamente impeccabili.

E tu, leggendo un testo scritto così bene, abbassi le difese e te la bevi.

E qui casca l’asino, perché scommetto che stai pensando: “Vabbè Roberto, ma io controllo tutto, mica sono scemo”.

Perché supervisionare è QUASI impossibile: ma dobbiamo farlo sempre!

Ti piacerebbe credere di avere il controllo, vero?

Purtroppo, la scienza ci dice che non è così semplice. Il problema è che siamo esseri umani e siamo pigri per natura. Quando ci troviamo di fronte a un’interfaccia che per 9 volte su 10 ci dà una risposta che sembra corretta, smettiamo di analizzare i dettagli.

Come emerge dallo studio “Trust Me, I’m Wrong: LLMs Hallucinate with Certainty Despite Knowing the Answer“, la supervisione umana fallisce proprio dove serve di più. I partecipanti all’esperimento, anche quando messi in guardia, tendevano a validare risposte errate semplicemente perché erano formulate in modo autorevole. È un cane che si morde la coda: usiamo l’IA per risparmiare tempo, ma per usarla in modo sicuro dovremmo impiegare più tempo a verificare ogni singola virgola di quanto ne servirebbe per scrivere il pezzo da zero.

Addirittura, nel campo scientifico, l’uso di questi modelli per estrarre dati complessi ha portato a tassi di errore inaccettabili, con vere e proprie invenzioni di dati inesistenti, come descritto in un paper su NPJ.

Quindi, qual è la morale della favola?

Non ti sto dicendo di buttare via il PC e tornare alla macchina da scrivere. Ma smettila di trattare l’output di queste macchine come se fosse la Bibbia.

Usale, spremile, ma tieni sempre, e dico sempre, il cervello acceso.

Perché loro non lo hanno.

Anita Innocenti

Sono una copywriter appassionata di search marketing. Scrivo testi pensati per farsi trovare, ma soprattutto per farsi scegliere. Le parole sono il mio strumento per trasformare ricerche in risultati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ricevi i migliori aggiornamenti di settore