L’IA potrebbe presto trovarsi di fronta all’esaurimento dei dati di addestramento, un fenomeno noto come data wall. Infatti, la crescente domanda di testi per sviluppare modelli linguistici avanzati (come, ad esempio, GPT-4) rischia di superare la disponibilità di contenuti online. A questa crisi si aggiunge la tendenza di molti siti a limitare l’accesso ai loro dati per motivi di copyright, spingendo le aziende a stringere accordi commerciali o ad acquistare dataset privati.
L’uso di dati sintetici (ovvero generati dalle stesse IA) per addestrare nuovi modelli potrebbe, a primo impatto, risultare come una possibile soluzione. Questi dati, d’altronde, potrebbero ridurre la dipendenza da fonti reali e abbattere i costi. Tuttavia, questa pratica comporta dei rischi signficativi, come il “collasso del modello”. Al momento, una delle opzioni per provare ad aggirare questo problema, consiste nello studiare delle tecniche che combinano dati sintetici e reali, nel tentativo di mantenere la diversità e l’affidabilità dei modelli.
Sembrerebbe che il mercato dei dati sintetici sia in espansione, con previsioni che indicano una crescita esponenziale nei prossimi anni.
Leggi l’articolo completo: I dati sintetici salveranno l’intelligenza artificiale? su guerredirete.it.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

