Sarah Silverman ha accusato OpenAI e Meta di violazione del copyright. Secondo la comica avrebbero usato i suoi libri per addestrare ChatGPT e LLaMA.
La comica e sceneggiatrice statunitense Sarah Silverman ha fatto causa a OpenAI. Insieme ai romanzieri Christopher Golden e Richard Kadrey, ha presentato delle denunce contro OpenAI e Meta sostenendo che le due aziende abbiano addestrato i loro modelli linguistici di grandi dimensioni su materiali protetti da copyright, comprese le opere da loro pubblicate, senza ovviamente aver avuto o chiesto il consenso.
Le denunce riguardano i set di dati che OpenAI e Meta avrebbero utilizzato per addestrare ChatGPT e LLaMA. Nel caso di OpenAI, mentre il dataset “Books1” corrisponde approssimativamente alle dimensioni di Project Gutenberg, un archivio di libri liberi da copyright, il dataset “Books2”, secondo gli avvocati dei querelanti, sarebbe ricavato dalle cosiddette “biblioteche ombra”, dove materiale protetto da copyright è disponibile illegalmente, come Library Genesis e Sci-Hub.
Un documento della causa riguarda uno scambio tra gli avvocati di Sarah Silverman e ChatGPT. Il team legale di Silverman ha chiesto al chatbot di riassumere The Bedwetter, un libro pubblicato nel 2010. Il chatbot è stato in grado di schematizzare intere parti del libro, ma ha fatto anche di più riproducendo alla lettera alcuni passaggi del libro di memorie.
Per quanto riguarda la causa contro Meta, si sostiene che i libri degli autori fossero accessibili nei set di dati che Meta ha utilizzato per addestrare il suo modelli LLaMA. In un documento in cui Meta descrive in dettaglio LLaMA, la società indica le fonti per i suoi set di dati di addestramento ed uno di questi si chiama ThePile, che è stato descritto come messo insieme da “una copia dei contenuti del tracker privato Bibliotik” che è illegale.
Silverman, Golden e Kadrey non sono i primi autori a fare causa a OpenAI per violazione del copyright. L’azienda deve infatti affrontare una serie di sfide legali per il modo in cui ha addestrato ChatGPT.