Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
Un framework open source per valutare i modelli di linguaggio: una soluzione universale o una mossa strategica di Google nel mondo dell’IA?
Google ha rilasciato LMEval, un framework open source per valutare i grandi modelli linguistici (LLM) di diversi fornitori. Progettato per essere sicuro ed efficiente, promette un metro di misura unico. Sebbene offra vantaggi tecnici come test incrementali e sicurezza dati, sorgono interrogativi sulla sua reale apertura, essendo sviluppato internamente da Google. L'adozione da parte della comunità e i dubbi su possibili agende nascoste rimangono punti interrogativi.
LMEval di Google: l’ennesimo strumento “aperto” o una vera svolta per valutare le IA?
Google ha tirato fuori dal cilindro un nuovo aggeggio chiamato LMEval.
Stando a quanto raccontano sul loro blog ufficiale, si tratterebbe di un framework open source pensato per mettere alla prova i modelli di linguaggio di grandi dimensioni, quelli che ormai spuntano come funghi, da Gemini a GPT-4, passando per Claude.
L’idea di fondo? Avere un metro di misura unico per capire chi fa cosa e come lo fa, il tutto – dicono loro – in modo sicuro ed efficiente.
Ma, diciamocelo, quando un colosso come Google rilascia qualcosa di “aperto”, qualche domanda è lecito farsela.
Sarà davvero un regalo alla comunità o c’è dell’altro sotto?
E qui la faccenda si fa interessante, perché se finora ogni sviluppatore doveva arrabattarsi con sistemi diversi per testare i vari modelli, con LMEval si promette una sorta di “passpartout”.
Ma andiamo al sodo: come funziona ‘sto LMEval e, soprattutto, cosa te ne fai tu?
Ma cosa ci fa esattamente questo LMEval (e perché dovrebbe interessarti)?
Immagina di dover scegliere tra diverse auto: non le proveresti tutte sulla stessa strada e con gli stessi criteri? Ecco, LMEval punta a fare proprio questo, ma con le intelligenze artificiali.
In pratica, ti permette di confrontare le prestazioni di modelli provenienti da diversi fornitori – Google stessa, OpenAI, Anthropic, persino quelli che trovi su Hugging Face – usando un’unica interfaccia.
Niente più incubi dovuti ad API che cambiano o a procedure di test che sembrano scritte in ostrogoto.
E non è finita qui.
Pare che questo strumento sia anche piuttosto furbo: invece di rifare ogni volta tutti i test da capo, un po’ come facevi tu quando non salvavi il documento e il computer si piantava, LMEval è capace di fare test incrementali.
Questo, secondo i primi ad adottarlo, come descritto da opensourceforu.com, si traduce in un risparmio sui costi di calcolo che può andare dal 40 al 60%.
Non male, vero?
Se poi ci aggiungi che è pensato per lavorare su più fronti contemporaneamente, velocizzando il tutto, capisci che l’idea non è affatto peregrina.
Altro punto su cui battono il tasto è la sicurezza.
I dati che usi per i test, magari sensibili o proprietari, vengono archiviati in un database SQLite che si auto-cripta.
Una sorta di cassaforte digitale per evitare che informazioni preziose finiscano in mani sbagliate o, peggio, indicizzate dai motori di ricerca.
Tutto molto bello, dici?
Compatibilità, efficienza, sicurezza…
Sembra quasi troppo bello per essere vero, soprattutto quando c’è di mezzo un colosso come Google.
E infatti, qualche domanda sorge spontanea…
Bello sulla carta, ma chi c’è dietro e quanto è “aperto” davvero?
Dietro le quinte di LMEval ci sono ingegneri Google, come Luca Invernizzi e Marianna Tishchenko, gente che, a quanto pare, ha già masticato sistemi di valutazione per i progetti interni di Big G.
E questo, se da un lato rassicura sulla competenza, dall’altro fa sorgere un piccolo dubbio: quanto è genuinamente “aperto” uno strumento che nasce in casa di chi, poi, dovrebbe essere valutato con quello stesso strumento?
Una partnership interessante è quella con Giskard, che sta usando LMEval per il suo benchmark “Phare”, un protocollo di valutazione della sicurezza tenuto d’occhio persino dalle autorità europee. Questo potrebbe dare un’aura di indipendenza, ma resta il fatto che, come specificato chiaramente sulla pagina GitHub del progetto, LMEval “non è un prodotto ufficiale Google”.
Un modo elegante per dire “ve lo diamo, usatelo, ma se qualcosa va storto o se poi lo usiamo per i fatti nostri, non prendetevela con noi”?
Il panorama degli strumenti di valutazione open source non è nuovo. Esiste già, ad esempio, lm-evaluation-harness di EleutherAI, che ha la sua nicchia di utenti. Viene da chiedersi se l’uscita di LMEval sia un tentativo di Google di standardizzare il campo secondo le sue metriche o, magari, di tenere sotto controllo come vengono valutati i suoi stessi modelli (e quelli dei concorrenti). Non sarebbe la prima volta che un’azienda tech rilascia un tool “aperto” che poi, guarda caso, favorisce il suo ecosistema.
Insomma, l’idea è buona, i presupposti tecnici sembrano solidi, ma resta da vedere se la comunità lo adotterà davvero o se rimarrà l’ennesimo progetto “open” con un’agenda, magari neanche troppo nascosta.
E a proposito di adozione…
E il mercato come sta reagendo? primi segnali e qualche dubbio lecito
I numeri iniziali, per quello che valgono, non sono da capogiro ma neanche da buttare: la pagina GitHub di LMEval ha raccolto una cinquantina di “stelle” e qualche “fork” nelle prime settimane dal lancio. Segnali di un interesse tiepido, forse, o semplicemente il tempo necessario perché uno strumento così tecnico prenda piede.
Si dice che anche gli ingegneri di Hugging Face abbiano mostrato interesse a integrare LMEval con il loro Model Hub, il che potrebbe dargli una bella spinta.
Ma la vera domanda è: la comunità degli sviluppatori si fiderà abbastanza da adottarlo su larga scala?
O prevarrà lo scetticismo verso un’iniziativa targata Google, per quanto “non ufficiale”?
Il rischio, come sempre in questi casi, è che strumenti come LMEval, pur nati con buone intenzioni (o almeno così ci viene raccontato), possano diventare un collo di bottiglia o, peggio, un modo indiretto per le grandi aziende di influenzare gli standard di mercato o, perché no, di raccogliere dati preziosi su come vengono sviluppati e testati i modelli altrui.
La promessa di poter valutare anche immagini e codice, oltre al testo, è allettante, ma finché non vedremo un’adozione massiccia e indipendente, il sospetto che possa essere l’ennesimo cavallo di Troia rimarrà.
Tu che ne pensi?
Ti fideresti a usare uno strumento del genere per valutare i tuoi progetti di intelligenza artificiale, sapendo chi c’è dietro?