Il nodo giuridico dell’addestramento degli LLM
L’utilizzo di opere tutelate da privative per l’addestramento di Large language models è ormai all’attenzione dei giudici, tanto in Europa quanto negli Stati Uniti. Tesi interpretative e vere e proprie scommesse giuridiche sul punto si delineano e si scontrano, tanto nel dibattito pubblico, quanto nelle aule di tribunale. In questa sede non è possibile presentare un quadro esaustivo di conflitto giuridico ormai articolato su molteplici piani. Per certo, l’industria considera l’utilizzo di opere protette un elemento strutturale della propria attività; al punto che l’eventuale accertamento di un’illegalità sistemica nelle pratiche di sfruttamento di tali opere potrebbe determinarne la caduta. Come sostiene lo Study on Development of Generative Artificial Intelligence from a Copyright Perspective, commissionato dallo European Union Intellectual Property Office (EUIPO) e preparato da alcuni colleghi torinesi guidati dal Professor Maurizio Borghi, vi sono profondi dubbi circa la validità delle soluzioni giuridiche individuate da OpenAI e da altri sviluppatori di LLMs per giustificare sia l’uso di testi contenuti in opere protette quali input per lo sviluppo di LLMs, sia la messa a disposizione del pubblico di alcuni output molto simili e potenzialmente in concorrenza con le opere protette da cui derivano.
Un contenzioso globale: cause e interessi in gioco
Sono ormai avviate varie cause che, in ragione della notorietà delle parti coinvolte o per i loro possibili effetti economici, hanno attirato forte attenzione. La compatibilità tra le pratiche di raccolta e utilizzo di materiali protetti per il cosiddetto training dei LLM e il regime di tutela del diritto d’autore resta una questione irrisolta. Lo stesso vale per l’uso successivo degli output, quando vengono messi a disposizione del pubblico. Questa incertezza è confermata dalle cause recentemente avviate sia negli Stati Uniti, sia in Europa. Tra le prime, si pensi, ad esempio, a Disney et al. v. MiniMax, avviata il 16 settembre scorso avanti la Corte distrettuale del Distretto Centrale della California (riguardante input e output) e a Britannica v. Perplexity AI, intentata presso la Corte distrettuale del Southern District of New York (caso RAG, input, output e presunta diluizione del marchio dei ricorrenti). Come sottolineano Maurizio Borghi, Alberto Sissa e Antonio Santangelo nel volume Critica di ChatGPT (2025), i valori economici e le sfide giuridiche che si prospettano sono davvero enormi, pertanto è lecito domandare se il futuro di molti modelli di LLM sarà simile al formidabile tracollo di Napster o al relativo successo di Spotify nel comporre i diritti degli autori e le attività di distribuzione della piattaforma.

Il caso Bartz v. Anthropic: una vittoria parziale per l’industria
Sono pendenti oltre 70 cause nelle diverse giurisdizioni su questi temi, per tener unicamente conto di quanto avviene nello spazio giuridico euro americano, ed alcune decisioni stanno finalmente venendo alla luce accompagnate da transazioni per porre fine a azioni collettive promosse da autori e titolari di diritti e società fornitori di LLM. L’ultima in ordine di tempo e di grande importanza è Bartz v. Anthropic del 23 giugno del tribunale federale del Nord District della Californi. Si tratta di una sentenza parziale sul tema se l’attività di “addestramento” (input) su testi contenuti in copie di opere protette sia stata effettuata lecitamente. La pronuncia è in senso favorevole all’industria, si tratterebbe infatti di un’attività trasformativa coperta da fair use secondo la sect. 107 del Copyright Act degli Stati Uniti (17 U.S.C. § 107). La distinzione circa l’origine legale o illegale della copia utilizzata nell’addestramento è stata riconosciuta come dirimente. Per diretta ammissione di Antropic, la fase di “addestramento” del proprio LLM commercializzato con il marchio Claude era avvenuta su una banca dati di libri che, per ragioni di opportunismo e riduzione dei costi di transazione, era stata composta raccogliendo opere letterarie di origine diversa. Da una parte, alcuni testi erano stati recuperati mediante un accordo con un sistema di biblioteche, le quale sono titolari di copie legittime delle opere protette, e giudicato compatibile con il diritto di autore negli Stati Uniti dalla sentenza medesima. Dall’altra, una parte della raccolta di libri digitalizzati era stata costituita attraverso la raccolta di copie di opere illegalmente raccolte online su siti pirata e dunque ritenute illegali. La sentenza ha rappresentato un importate precedente per l’industria per quanto riguarda l’applicazione delle fair use doctrine alla fase di input, senza però affrontare né risolvere l’aspetto legato agli output generati, non essendo tale aspetto oggetto della domanda giudiziale. La sentenza parziale a favore di Antropic non ha bloccato l’azione di classe promossa per contestare l’”addestramento” su copie di opere illegalmente raccolte. Nel settembre del 2025 è intervenuta la transazione sul punto, per il valore di 1,5 miliardi di dollari, risarcimento dovuto per la violazione del copyright sulle opere illegalmente riprodotte e conservate. Le società di sviluppo e commercializzazione di LLM sono quindi avvertite riguardo alle conseguenze di pratiche eccessivamente disinvolte ed illegali.
Le prime decisioni europee: Regno Unito e Germania
Tra le sentenze salienti in Europa, ne ricordiamo brevemente un paio di tenore divergente, entrambe rese nel mese di novembre: una proveniente dal Regno Unito, la seconda, cui accenneremo solamente, arriva dalla Germania. La sentenza Getty Images v. Stability AI è stata resa dalla High Court of Justice di Londra il 4 novembre 2025. Il provvedimento conta più di 200 pagine, e qui pertanto saranno esposti unicamente i suoi capisaldi. Getty Images è una nota società con sede a Seattle negli Stati Uniti che produce contenuti digitali e raccolte di immagini e video. Nel giugno del 2025 ha intentato due cause parallele negli Stati Uniti e nel Regno Unito nei confronti di StabilityAI, una società che fornisce modelli di generazione di immagini attraverso richieste testuali mediate il servizio Stable Diffusion. La lite americana, proposta nuovamente in California, dopo un primo passaggio in Delaware, non è attualmente giunta a sentenza.
La causa Getty Images v. Stability AI
L’azione incardinata da Getty in Inghilterra, in particolare, era stata originariamente intentata per ottenere la condanna della convenuta per violazione del copyright sulle opere di cui Getty è titolare dei diritti di proprietà intellettuale, oltre alla violazione dei diritti sui marchi e altre violazioni minori. L’atto introduttivo della lite conteneva la domanda contro la convenuta per: a) la lesione dei propri diritti nella fase di “allenamento”, violazione consumata utilizzando opere protette (“The Training and Development Claim”; b) la lesione dei diritti di proprietà intellettuale in fase di pubblicazione degli output, in quanto il modello generava immagini sintetiche derivanti da opere protette, recanti watermark con marchi di proprietà Getty ( “the Outputs Claim”); c) la lesione dei diritti su data base protetti (“the Database Rights Infringement Claim”). Nel corso del processo, tuttavia, la portata della causa è stata ridimensionata a causa di difficoltà probatorie riguardanti il fatto che fosse avvenuto nel Regno Unito il preteso uso illecito delle opere protette per l’addestramento dell’algoritmo. Getty rinunciava quindi alla domanda – di maggior momento per l’industria – relativa all’attività condotta dalla convenuta nella fase di “addestramento”, nonché a quella riguardante la generazione di immagini sintetiche in violazione dei suoi diritti di proprietà intellettuale. La ragione di questa mossa risiedeva nel fatto che Getty non era in grado di comprovare che gli atti di violazione asseriti nella fase di addestramento – cioè l’uso non autorizzato di opere protette – fossero avvenuti nel territorio del Regno Unito, requisito necessario per fondare la giurisdizione della Corte inglese. In altre parole, Getty ha rinunciato alle domande relative all’addestramento e alla generazione degli output perché non era in grado di provare che le attività di “copying” e “processing” delle proprie opere fossero avvenute nel Regno Unito, con il rischio che l’intera parte innovativa della causa fosse respinta in limine per difetto di prova territoriale. La lite si concentrava così sulle pretese più tradizionali e più facilmente dimostrabili, quali la violazione dei marchi e dei diritti sui database, vertendo quindi ormai esclusivamente sulla generazione sistematica di immagini, recanti diversi marchi di proprietà di Getty in violazione del Trade Marks Act 1994 (the “TMA”) (il cc.dd. “the Trade Mark Infringement Claim”), nonché sulla contraffazione nel marchio nella fornitura dei propri servizi di generazione immagini (the “Passing Off Claim”). Getty inoltre domandava la condanna di StabilityAI per la violazione secondaria del diritto di autore attraverso l’importazione nel Regno Unito di artefatti (il Modello Stable Diffusion) lesivi del diritto di autore, in quanto ottenuti mediante usi di opere protette, che se fossero avvenuti nel Regno Unito sarebbero risultati illeciti. Sul punto, facendo riferimento alla section 27(3) del Copyright, Designs and Patents Act 1988, Getty Images mirava a far dichiarare “copia illecita” il modello stesso, ottenuto mediante un processo di addestramento e di calibrazione dei parametri avvenuto in modo illecito all’estero. Secondo Getty, l’importazione del modello Stable diffusion nel Regno Unito un metodo elusivo della disciplina del copyright (“the Secondary Infringement Claim”).

La decisione inglese: limiti, novità e questioni irrisolte
La recente sentenza del High Court del Regno Unito ha in larga parte disatteso quanto sostenuto da Getty, ed ha quindi in buona parte confortato StabilityAI, anche sulla richiesta di risarcimento danni da parte di Getty. Infatti, la Corte, pur accogliendo una parte delle domande relative alla violazione di marchi (ritenendole peraltro le violazioni “molto limitate”), ha respinto la pretesa più sostanziosa, riguardante la compatibilità dell’attività di addestramento dei modelli di generazione di AI tramite l’utilizzo di materiali protetti. In particolare rispetto al “secondary infringment” che si sarebbe consumato con l’importazione nel Regno Unito di un modello il cui addestramento sarebbe stato illegale alla stregua del diritto inglese, Mrs Justice Joanna Smith ha ritenuto che “un modello di intelligenza artificiale come Stable Diffusion, che non memorizza né riproduce alcuna opera protetta da copyright (e non lo ha mai fatto), non costituisce una “copia illecita”, con la conseguenza che non si configura alcuna violazione ai sensi delle sezioni 22 e 23 del CDPA”. È quest’ultimo aspetto della sentenza ad essere ben accolto dall’industria, ma è evidente che questa pronuncia lascia aperto, per via del difetto di giurisdizione, il nodo centrale, riguardante l’attività di addestramento che precede l’importazione e la messa a disposizione del pubblico degli output generati da tale modello. Nel riconoscere dunque l’importanza ed i limiti della decisione qui sommariamente ripresa, la quale non pronuncia alcun risarcimento danni a carico di Perplexity, vale la pena richiamare l’attenzione sullo stato di ebollizione generato dalla competizione tra tesi interpretative più o meno restrittive del diritto di autore e l’ascesa degli LLM. In tale senso, una recente sentenza del Tribunale di prima istanza di Monaco di Baviera pubblicata l’11 novembre 2025 (GEMA vs OpenAI) ha sostenuto la tesi opposta, secondo cui sia la memorizzazione di opere protette che avviene nel processo di calibrazione del modelli di linguaggio, sia la riproduzione dei testi nella fase di output, integrano una violazione del diritto di autore, condannando al risarcimento OpenAI. L’ammontare dei danni non è però stabilito in sentenza, perché, come previsto in Germania, la quantificazione è possibile solo dopo che i convenuti abbiano adempiuto l’obbligo di informazione su volumi, utilizzi e ricavi. La sfida è dunque aperta, i valori in gioco vanno al di là della dimensione economica delle singole vicende.
Immagini generate tramite ChatGPT. Tutti i diritti sono riservati. Università di Torino (2025).

