Google Pegasus: Quando l'AI crea riassunti migliori di quelli umani

PEGASUS, un modello all’avanguardia per la generazione di riassunti

È un dato di fatto che Google intenda fare pulizia dei milioni di contenuti a suo dire “non d’aiuto per fornire risposte migliori”, così come è chiaro che Big G intende sempre più fornire le informazioni così come l’utente le desidera, introducendo nuovi scenari per chiunque si occupi di SEO.

La capacità di generare riassunti automatici gioca in tutto questo un ruolo molto importante. Nell’articolo ti riporto le principali informazioni pubblicate sul blog ufficiale di Google in merito al rilascio di PEGASUS, il modello di intelligenza artificiale che aprirà la strada alla creazione del perfetto riassunto a base di intelligenza artificiale.

Gli studenti sono spesso incaricati di leggere un documento e di produrre un riassunto (ad esempio di un libro) per dimostrare la propria capacità di lettura e di scrittura. Questo perché il riassunto, una sintesi astratta del testo, è uno dei compiti più impegnativi nell’elaborazione del linguaggio naturale: esso comporta infatti la comprensione di lunghi passaggi, la compressione delle informazioni e la generazione di linguaggio nuovo.

Il paradigma dominante utilizzato per l’addestramento dei modelli di apprendimento automatico dedicati a questo è il cosiddetto apprendimento “sequenza per sequenza” (seq2seq) attraverso il quale una rete neurale impara a mappare le sequenze di input e le sequenze di output.

Mentre questi modelli seq2seq sono stati inizialmente sviluppati utilizzando reti neurali ricorrenti, i modelli Transformer encoder-decoder sono entrati recentemente in voga in quanto più efficaci nel modellare le dipendenze presenti nelle lunghe sequenze incontrate nella riepilogo.

I modelli Transformer combinati con un pre-formazione autosorvegliata (ad esempio, BERT, GPT-2, RoBERTa, XLNet, ALBERT, T5, ELECTRA) hanno dimostrato di essere una potente struttura per produrre un apprendimento generale delle lingue, raggiungendo prestazioni elevatissime quando interrogate su una vasta gamma di compiti linguistici.

Fino a poco fa, gli obiettivi cosiddetti “auto-sorvegliati” – utilizzati nella fase di pre-formazione – sono stati in qualche modo agnostici; di recente però gli studiosi si sono chiesti se si potesse ottenere una migliore performance qualora l’obiettivo autosorvegliato rispecchiasse più da vicino il compito finale.

Con PEGASUS (che apparirà alla Conferenza Internazionale sull’Apprendimento delle Macchine del 2020) è stato appunto progettato un obiettivo di pre-formazione autosorvegliato (chiamato generazione di frasi di gap) per i modelli di encoder-decodificatori Transformer utili a migliorare le prestazioni di messa a punto su riassunti astratti.

Un obiettivo autosorvegliato per il riassunto

L’ipotesi degli sviluppatori di PEGASUS è che quanto più l’obiettivo di autosorveglianza a pre-formazione è vicino al compito finale a valle, tanto migliore sarà la prestazione di messa a punto.

Nella fase di pre-formazione di PEGASUS diverse frasi intere vengono rimosse dai documenti e il modello ha il compito di recuperarle.

Un esempio di input di pre-formazione è un documento con frasi mancanti, mentre l’output consiste nelle frasi mancanti concatenate insieme. Questo è un compito incredibilmente difficile che può sembrare impossibile anche per le persone, e gli sviluppatori non si aspettano per ora che il modello lo risolva perfettamente. Tuttavia, un compito così impegnativo incoraggia il modello a imparare il linguaggio e i fatti generali sul mondo, così come a distillare le informazioni prese da tutto il documento per generare un output che assomiglia molto ad un perfetto riassunto.

Il vantaggio di questa auto-vigilanza è che si possono creare tanti esempi quanti sono i documenti, senza alcuna annotazione umana – fattore che spesso rappresenta il collo di bottiglia nei sistemi puramente supervisionati.

Un esempio dell’applicazione dei controlli di autosorveglianza usati da PEGASUS durante la preformazione

Come avviene con BERT, Il modello viene addestrato a produrre tutte le frasi mascherate. A questo riguardo è stato scoperto che funzionava meglio scegliere frasi “importanti” da mascherare, rendendo l’output di esempi autosorvegliati ancora più simile ad un riassunto.

Le frasi importanti sono state identificate automaticamente trovando quelle più simili al resto del documento, utilizzando una metrica chiamata ROUGE. Quest’ultima calcola la somiglianza di due testi valutando le sovrapposizioni di n-grammi e utilizzando un punteggio da 0 a 100 (ROUGE-1, ROUGE-2 e ROUGE-L sono tre varianti comuni).

Analogamente ad altri metodi recenti, come il T5, il modello è stato pre-allenato su un corpus molto ampio di documenti web-crawled, successivamente è stato messo a punto il modello su 12 set di dati di riassunto astratto pubblico down-stream, ottenendo nuovi risultati allo stato dell’arte misurati con metriche automatiche, utilizzando solo il 5% del numero di parametri del T5.

I dataset sono stati scelti per essere diversificati, includendo articoli di notizie, documenti scientifici, brevetti, racconti, e-mail, documenti legali e indicazioni su come procedere, dimostrando così che il modello si adatta ad un’ampia varietà di argomenti.

Mentre PEGASUS ha mostrato prestazioni notevoli con grandi set di dati, è sorprendente scoprire che nell’apprendere il modello non richiedeva un gran numero di esempi di messa a punto per ottenere prestazioni quasi allo stato dell’arte.

Riassunti di qualità… umana

Anche se le metriche automatiche come ROUGE sono utili per misurare il progresso durante lo sviluppo del modello, esse forniscono solo informazioni limitate e non ci raccontano l’intera storia. Ad esempio non ci dicono se il testo è fluido o se regge il confronto con le prestazioni umane.

A tal fine è stata condotto una valutazione umana, in cui ai valutatori è stato chiesto di confrontare i riassunti del modello PEGASUS con quelli redatti dagli umani senza sapere se il riassunto fosse opera di una persona o della macchina.

L’esperimento è stato effettuato con 3 diversi set di dati e si è scoperto che i valutatori umani NON preferiscono sempre i riassunti umani a quelli prodotti da PEGASUS!

Inoltre, i modelli addestrati con solo 1000 esempi hanno mostrato prestazioni quasi altrettanto buone. In particolare, con i tanto studiati dataset XSum e CNN/Dailymail il modello raggiunge prestazioni di tipo umano utilizzando solo 1000 esempi. Questo suggerisce che grandi set di dati di esempi supervisionati non sono più necessari per l’apprendimento, aprendo molte opportunità sull’uso a basso costo.

Codice PEGASUS e rilascio del modello

Per sostenere la ricerca in corso in questo campo e garantire la riproducibilità, in questi giorni il team disviluppo sta rilasciando il codice PEGASUS e i checkpoint dei modelli su GitHub. Questo include il codice di messa a punto che può essere utilizzato per adattare PEGASUS ad altri set di dati di riepilogo.

Note: Il testo originale e completo relativo al rilascio di PEGASUS è disponibile qui: https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html

Google Pegasus: riassunti automatici a base di intelligenza artificiale

PEGASUS, un modello all’avanguardia per la generazione di riassunti

Un obiettivo autosorvegliato per il riassunto

Un esempio dell’applicazione dei controlli di autosorveglianza usati da PEGASUS durante la preformazione

Riassunti di qualità… umana

Codice PEGASUS e rilascio del modello

Mercato, richieste e concorrenti. Scopri le potenzialità del tuo Business su Google. Dati alla mano.

Analisi di fattibilità

Google Pegasus: riassunti automatici a base di intelligenza artificiale

PEGASUS, un modello all’avanguardia per la generazione di riassunti

Un obiettivo autosorvegliato per il riassunto

Un esempio dell’applicazione dei controlli di autosorveglianza usati da PEGASUS durante la preformazione

Riassunti di qualità… umana

Codice PEGASUS e rilascio del modello

Appunti in linea

Mercato, richieste e concorrenti. Scopri le potenzialità del tuo Business su Google. Dati alla mano.

Analisi di fattibilità