Una ricerca pubblicata su arXiv rivela che DataComp CommonPool, uno dei più grandi dataset open-source per l’addestramento di modelli AI generativi, contiene milioni di immagini con dati e informazioni personali identificabili.
Tra i file analizzati figurano passaporti, carte di credito, certificati di nascita, CV e volti identificabili.
Il team ha esaminato solo lo 0,1% del dataset, rilevando migliaia di documenti d’identità e oltre 800 curriculum vitae contenenti dati sensibili come disabilità, controlli sui precedenti penali e informazioni familiari. La licenza del dataset, che è stato scaricato oltre 2 milioni di volte, non esclude l’uso commerciale, amplificando il rischio che tali dati siano già finiti in numerosi modelli.
Le misure di mitigazione adottate dai curatori del dataset si sono dimostrate inadeguate. Sebbene fossero previsti filtri automatici per l’offuscamento dei volti, l’algoritmo ne avrebbe mancati circa 102 milioni. Metadati e didascalie associati alle immagini contengono spesso ulteriori informazioni personali, come nomi e localizzazioni, e non sono stati applicati filtri per rilevare stringhe identificative.
Gran parte delle immagini risale a prima del 2020, quando i modelli generativi non erano ancora diffusi, rendendo di fatto impossibile ottenere un consenso consapevole all’uso di tali dati per l’addestramento dell’AI. Lo studio contesta la legittimità dello scraping massivo e l’effettiva efficacia delle attuali leggi sulla privacy. La nozione di “pubblicamente disponibile” non sembra più compatibile con l’uso intensivo che i sistemi di AI fanno dei dati.
Leggi l’articolo completo: A major AI training data set contains millions of examples of personal data su MIT Technology Review
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

