Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
La società è accusata di aver utilizzato opere protette da copyright per addestrare la sua intelligenza artificiale, aprendo un dibattito sull’etica e la legalità nell’uso dei dati per l’innovazione tecnologica
Adobe finisce sotto accusa per aver addestrato la sua intelligenza artificiale con migliaia di libri piratati, scatenando una class-action. Il caso non è isolato e svela una pratica diffusa nel settore tech, da Apple a Salesforce. Si profila una resa dei conti tra l'innovazione a tutti i costi e il fondamentale rispetto del diritto d'autore.
La scatola cinese dei dati “in prestito”
Ma come sono finiti i libri di un’autrice americana nel motore di un colosso come Adobe?
La risposta assomiglia a una di quelle matrioske russe, dove ogni pezzo ne nasconde un altro. Il modello AI incriminato, SlimLM, è stato addestrato su un dataset chiamato SlimPajama-627B. Adobe si difende dicendo che si tratta di un corpus di dati pubblico, ma è proprio qui che casca l’asino.
Come descritto da TechChrunch, SlimPajama è a sua volta un derivato di un altro dataset, RedPajama. E indovina un po’ da dove pesca RedPajama? Da una famigerata collezione chiamata Books3, un archivio che contiene la bellezza di 191.000 libri, molti dei quali piratati e presi di peso da repository illegali.
In pratica, Adobe potrebbe aver usato dati “puliti” che però erano stati “sporcati” a monte. Una difesa che, a dirla tutta, scricchiola parecchio.
Un caso isolato?
Una semplice svista di un’azienda che non sapeva cosa contenessero quei dati?
Purtroppo per Adobe, la storia recente ci racconta una musica completamente diversa.
Un vizio di famiglia nell’industria tech
Adobe, infatti, non è affatto sola in questa bufera. Anzi, è solo l’ultima di una lunga serie.
A settembre, la stessa identica accusa è piovuta su Apple per l’addestramento di Apple Intelligence. Nello stesso periodo, Anthropic, uno dei nomi più in vista nel mondo AI, ha dovuto chiudere una disputa simile con un assegno da 1,5 miliardi di dollari, una cifra che fa capire quanto la questione sia seria.
E per non farsi mancare nulla, a ottobre è toccato a Salesforce, beccata anche lei con le mani nel sacco, o meglio, nel dataset RedPajama.
Diciamocelo, più che incidenti di percorso, questi sembrano i sintomi di un problema sistemico: un’intera industria che, pur di correre veloce, sembra disposta a chiudere un occhio (o forse entrambi) sulla provenienza dei dati che alimentano le sue creazioni.
Quindi, non stiamo parlando di qualche scaramuccia legale, ma di una vera e propria resa dei conti tra i giganti della tecnologia e i creatori di contenuti.
E la domanda che tutti si fanno ora è cruciale.
Innovazione a tutti i costi o rispetto del diritto d’autore?
Cosa significa tutto questo per il futuro?
Significa che il Far West dell’intelligenza artificiale, dove tutto era permesso in nome del progresso, sta volgendo al termine. Quelle che fino a ieri erano considerate semplici questioni etiche si stanno trasformando in enormi responsabilità legali ed economiche. Le aziende non possono più nascondersi dietro un dito, affermando di non sapere da dove provengano i dati.
La sentenza sul caso di Adobe potrebbe creare un precedente fondamentale, costringendo l’intero settore a una maggiore trasparenza e a riconsiderare da zero le proprie pratiche di addestramento.
La vera partita, in fondo, si gioca qui: tra l’innovazione a tutti i costi e il rispetto per chi, con la propria creatività, ha costruito le fondamenta su cui questi nuovi colossi poggiano.

La loro AI poggia su sabbie mobili di parole rubate. Quanto reggerà il castello?
@Greta Luciani Il castello crollerà, ma costruiranno un altro golem con le sue macerie.
@Greta Luciani Reggerà abbastanza. Una multa è un costo di marketing, non un crollo etico. La vera domanda è: quale sarà il prossimo “prestito”?
Dietro ogni dato c’è una persona, un autore. L’automazione non deve cancellare il valore della creatività umana. Questo processo giudiziario è un’occasione per ristabilire le priorità. Quale futuro desideriamo costruire con questi potenti strumenti?
@Renato Graziani Il tuo punto è top. Questa storia è una bella sveglia per il settore. I dati non sono materia prima infinita e anonima. Per me, la vera sfida è creare valore con etica, non solo con la quantità. Bisogna ripensare le regole.
@Renato Graziani Le priorità sono già chiare: il profitto. La creatività umana è solo il carburante per la macchina. Questo processo non stabilirà un’etica, ma solo il prezzo da pagare per la scorciatoia.
L’indignazione collettiva è una recita. Hanno costruito cattedrali digitali con mattoni rubati e ora si lamentano delle crepe. Questa non è una sorpresa, è la logica conseguenza di un sistema che premia la velocità sulla correttezza. Il problema è sistemico.
Si scandalizzano tutti per i dati “presi in prestito”. La sorpresa è la vera recita. Alla fine conta solo il risultato finale, no?
@Federica Testa Un funnel alimentato da dati rubati produce solo risultati legalmente indifendibili.
Fingono di cadere dalle nuvole, ma rubano il lavoro degli altri. La creatività delle persone non è un loro database da saccheggiare.
@Sebastiano Caputo La loro sorpresa è talmente teatrale che mi sfugge il senso della recita.
Fanno finta di non sapere da dove arriva il cibo nel piatto. L’importante è che il motore giri, non importa il carburante. Quando arriva il conto, la colpa è sempre di chi ha estratto il petrolio, mai di chi guida la macchina.
@Andrea Ruggiero Più che scaricare la colpa, questo è un segnale che il concetto di “petrolio” (il copyright) non funziona per i motori di domani. Forse è l’intero sistema di distribuzione del carburante che andrebbe demolito, non il singolo guidatore.