L’Università di Harvard ha annunciato che a breve rilascerà un dataset di alta qualità contenente circa un milione di libri di pubblico dominio. Il progetto è stato promosso dalla Institutional Data Initiative (IDI) di Harvard, con il sostegno economico di Microsoft e OpenAI. Il direttore esecutivo dell’IDI Greg Luppert ha dichiarato che l’obiettivo è “livellare il campo di gioco” del panorama di sviluppo delle IA, fornendo accesso a un database di alta qualità, che permetta ad esempio a ricercatori e piccole startup di sviluppare modelli.
Vale la pena tenere in considerazione che il futuro dello sviluppo dei modelli IA al momento è abbastanza incerto. Molte delle principali aziende del settore stanno infatti affrontando procedimenti giudiziari riguardanti l’uso di dati coperti da copyright. L’eventuale esito negativo le costringerebbe a rivedere il processo di sviluppo dei loro modelli. La messa a disposizione di set di dati di pubblico dominio offre invece accesso a materiale di alta qualità senza incorrere in rischi legali legati al diritto d’autore.
Il dataset dell’IDI si unisce a una vera e propria ondata di iniziative in questa direzione. Ad esempio, la startup francese Pleias ha rilasciato Common Corpus, un dataset pubblico contenente oltre 3 milioni di libri e raccolte editoriali. Per quanto riguarda le immagini, la startup Spawning ha reso disponibile il dataset Source, che include materiale proveniente da Wikimedia Commons, diversi archivi e musei.
Leggi l’articolo completo “Harvard Is Releasing a Massive Free AI Training Dataset Funded by OpenAI and Microsoft” su Wired
Immagine generata tramite Gemini Imagen 3. Tutti i diritti sono riservati. Università di Torino (2025)

