GPT-5: Il nuovo modello OpenAI eguaglia gli esperti umani nel 40% dei compiti professionali

Anita Innocenti

Le regole del digitale stanno cambiando.

O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.

Contattaci ora →

GPT-5 eguaglia l’uomo nel 40% dei compiti: una rivoluzione annunciata che solleva dubbi sull’oggettività dei test e sui reali rischi dell’IA.

OpenAI ha annunciato GPT-5, che si dice eguagli le performance di un esperto umano nel 40% dei compiti professionali. Un salto triplo rispetto a GPT-4o, secondo test interni. L'annuncio solleva però interrogativi sulla reale oggettività dei dati forniti e se tale progresso sia una vera rivoluzione tecnologica o una strategia di marketing per mantenere alta l'attenzione sul colosso dell'AI.

Un balzo in avanti o solo numeri che fanno comodo?

Partiamo dai fatti nudi e crudi. Secondo OpenAI, il loro ultimo gioiello tecnologico ha raggiunto un tasso di successo del 40,6% nel benchmark GDPval, un test progettato per misurare le capacità dell’IA in 44 professioni diverse, dalla sanità alla finanza.

Come riportato su TechCrunch, si tratta di un salto quasi triplo rispetto al già potente GPT-4o, che si fermava a un modesto 13,7%. Tejal Patwardhan, che guida il team di valutazione di OpenAI, parla di un “tasso di progresso davvero incoraggiante”.

Certo, è difficile aspettarsi parole diverse da chi quel prodotto l’ha creato.

La vera domanda è: quanto è oggettivo un test creato e gestito dalla stessa azienda che deve vendere il prodotto?

Sia chiaro, il progresso tecnologico è innegabile. Ma quando i numeri sono così impressionanti e provengono dalla stessa fonte che ne trae beneficio, un po’ di sano scetticismo non guasta.

E al di là delle percentuali, cosa significa tutto questo nella pratica di tutti i giorni?

L’IA che non sbaglia (quasi) mai: promesse e rischi nascosti

Scavando più a fondo, scopriamo che GPT-5 sembra fare faville in settori ad altissima specializzazione. Il modello mostra tassi di errore drasticamente ridotti, specialmente in campo medico, dove si parla di un misero 1,6% di errori su casi complessi, contro il 15,8% del suo predecessore.

Questo, diciamocelo, è un dato che fa riflettere.

Un’intelligenza artificiale che assiste un medico riducendo le possibilità di errore è una prospettiva incredibile.

Tuttavia, la stessa OpenAI si affretta a mettere le mani avanti, specificando che il sistema non sostituisce i professionisti.

E qui sorge il dubbio: dove si traccia la linea?

Ci stanno dando uno strumento potentissimo, ma la responsabilità finale di quell’1,6% di errore su chi ricade?

Stiamo correndo il rischio di affidare decisioni critiche a un algoritmo di cui, in fondo, non comprendiamo appieno i meccanismi di ragionamento, cullandoci nell’illusione di un’efficienza quasi perfetta.

Ma come fa GPT-5 a essere così performante?

A quanto pare, il segreto non sta solo nella potenza bruta, ma in un’architettura molto più astuta.

Il “router intelligente”: efficienza a quale prezzo?

La vera novità di GPT-5 sembra essere un meccanismo interno che OpenAI chiama “router in tempo reale”. In pratica, il modello decide autonomamente quando usare una modalità di “pensiero rapido” per compiti semplici e quando attivare una modalità “profonda” per problemi complessi. Stando alla documentazione ufficiale di OpenAI, questo sistema non solo migliora le performance, ma riduce anche il consumo di risorse.

In parole povere: più intelligente con meno sforzo.

Tutto bellissimo.

Peccato che questo router impari e si migliori continuamente analizzando i segnali degli utenti: le nostre preferenze, le nostre correzioni, le nostre conversazioni. Ancora una volta, le nostre interazioni diventano il carburante per addestrare la prossima generazione di IA.

OpenAI parla di “rimodellare” il lavoro di milioni di professionisti, ma la sensazione è che si stia preparando il terreno per qualcosa di molto più radicale.

Ci vendono l’idea di un assistente instancabile, ma a guardare bene, sembra più un apprendista che impara il nostro mestiere con l’obiettivo, un giorno, di farlo al posto nostro.

Anita Innocenti

Sono una copywriter appassionata di search marketing. Scrivo testi pensati per farsi trovare, ma soprattutto per farsi scegliere. Le parole sono il mio strumento per trasformare ricerche in risultati.

26 commenti su “GPT-5: Il nuovo modello OpenAI eguaglia gli esperti umani nel 40% dei compiti professionali”

  1. Certamente, il 40% suona bene, ma chi ha disegnato quei test? Mi aspetto che il “superamento” umano sia misurato con lo stesso metro di giudizio con cui si valuta un concorso di bellezza.

  2. Benedetta Donati

    40% di parità? Bel traguardo, se non fosse che i test sono interni. Mi chiedo se il caffè del dipendente OpenAI sia incluso nel 40% di performance.

    1. Ragazzi, ‘sti test interni sono una barzelletta. 40%? Ma chi li ha fatti? Per me sono solo numeri sparati a caso per fare notizia.

    2. Messa così, il 40% suona bene, ma tra il dire e il fare… I test interni? Lasciano il tempo che trovano. Voglio vedere cosa succede quando queste IA si scontrano col vero caos del lavoro, mica con un foglio Excel preparato ad arte. La verità è che stiamo ancora giocando con le bambole.

  3. Il 40% di “eguaglianza” è una statistica che fa tanto rumore quanto poco dice sulla sostanza. Immagino che questi “esperti umani” siano stati scelti con la cura che si riserva alla scelta di cavie da laboratorio. Chi ci crede?

    1. Il dato del 40% è significativo, ma i test interni richiedono cautela. Dobbiamo capire se questa performance si traduce in utilità concreta sul campo.

  4. Vanessa De Rosa

    Certo, il 40% nei test interni è una cifra che fa riflettere. Chissà quanto conta l’interpretazione dei risultati forniti da chi ha tutto l’interesse a mostrarli positivi.

    1. Benedetta Lombardi

      Cara Vanessa, comprendo il suo scetticismo riguardo ai test interni, data la potenziale distorsione dei risultati. Tuttavia, un tale aumento di prestazioni, sebbene circoscritto, suggerisce una traiettoria di sviluppo non trascurabile. Bisognerà attendere verifiche esterne per valutarne l’effettivo impatto.

      1. Vanessa De Rosa

        Interessante il dato del 40%, ma i test interni mi lasciano sempre un po’ perplessa. Chissà come saranno valutati i compiti che richiedono… intuito.

    2. Vanessa, la tua osservazione sull’interpretazione dei risultati è valida. Il “40%” fa rumore, ma è solo un numero. Temo che ci stiamo illudendo sulle capacità reali, alimentati da chi ha interesse a vendere un futuro che non è ancora qui. Finiremo per delegare decisioni senza capire le conseguenze.

      1. Vanessa De Rosa

        Renato, capisco la tua sfiducia nei “numeri che fanno rumore”. Quella percentuale, seppur interessante, sembra più una dimostrazione di efficienza in compiti specifici che una vera padronanza. Ci pensiamo mai a cosa significhi davvero “eguagliare” un esperto umano?

  5. Alessandro Parisi

    Parliamo chiaro, questi test interni lasciano il tempo che trovano. Il 40% è un numero che fa scena, ma non dice nulla sulla capacità di risolvere problemi nuovi, quelli che cambiano le cose. Serve concretezza, non percentuali gonfiate per fare notizia.

    1. Certo, capisco le perplessità sui test interni. Comunque, se il 40% è reale, è un passo avanti che fa riflettere sulla nostra evoluzione.

    2. Alessio De Santis

      Alessandro, capisco la tua scetticismo. Ma anche se fosse solo marketing, quel 40% fa pensare: quanto siamo disposti a delegare senza verificare la sostanza?

  6. Luciano D’Angelo

    40%? Ma siamo sicuri che quei test misurino davvero la competenza o solo l’abilità di replicare schemi? Mi pare che si stia creando più confusione che certezze su questa “uguaglianza”.

  7. 40% è una metrica che lascia perplessi. Se i test sono interni, chi li ha validati? Il futuro del lavoro è davvero questo, o solo un’illusione creata da grafici?

    1. Il 40% è un traguardo notevole, ma mi chiedo quanto siano davvero rappresentativi questi test. A volte mi sento sopraffatta da queste avanzate, mi chiedo se stiamo costruendo un futuro che possiamo davvero gestire.

  8. Benedetta Donati

    40%? Più che uguagliare, direi che ha imparato a fare il minimo indispensabile. Quando arriverà a fare anche il caffè, allora forse ci crederò.

    1. I dati sui test interni vanno presi con le dovute cautele. Se l’IA è così brava, perché non pubblica i risultati completi?

  9. 40%? Mi sembra un po’ poco per definirla una “rivoluzione”. Siete sicuri che non stiano gonfiando un po’ i numeri?

      1. 40% che non è il 100%. Ma se per “eguagliare” intendiamo fare il minimo indispensabile, allora siamo già avanti. Chi ci garantisce la qualità di quel 40%?

        1. 40% dei compiti è una statistica che va presa con le pinze. Test interni e metriche scelte ad arte possono distorcere la realtà. Preferisco attendere verifiche esterne indipendenti prima di gridare al miracolo. La vera sfida non è eguagliare, ma superare in modo affidabile.

    1. Danilo Graziani

      40%? Ma per favore. Se non eguaglia l’esperto umano nel 100% dei compiti, significa che è ancora un giocattolo costoso. Il vero problema è se questi “test” misurano davvero qualcosa di utile.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ricevi i migliori aggiornamenti di settore