• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

La crisi del consenso: il rapido declino dei dati pubblici per l’AI

una rete di connessioni web che gradualmente si oscura e si blocca, simboleggiando il declino dell'accesso ai dati per l'AI. Sfondo blu

Il training dei modelli di Intelligenza Artificiale sta diventando sempre più difficile: i siti web stanno rapidamente bloccando l’accesso ai loro contenuti per impedirne l’utilizzo nell’addestramento dell’AI. Una tendenza che potrebbe avere conseguenze significative per il futuro dell’intelligenza artificiale.

Il problema del consenso dei dati per l’AI

I modelli di AI più avanzati, come GPT-4 e Gemini, sono addestrati su enormi quantità di dati provenienti dal web pubblico. Questi dati rappresentano una sorta di “bene comune digitale” che ha permesso lo sviluppo dell’AI moderna. Tuttavia, un nuovo studio condotto da un team di ricercatori guidato da Shayne Longpre rivela che questo “bene comune” si sta rapidamente riducendo.

I numeri del declino

La ricerca ha analizzato oltre 14.000 domini web, rivelando dati allarmanti:

  • In un solo anno (2023-2024), circa il 5-7% dei contenuti precedentemente accessibili è stato completamente bloccato per l’uso da parte dell’AI
  • Tra i siti più importanti e attivamente mantenuti, la percentuale di contenuti bloccati sale al 28%
  • Il 45% dei contenuti ha ora qualche forma di restrizione nei termini di servizio
  • I siti di news mostrano il più alto tasso di blocco, con quasi il 45% dei contenuti ora inaccessibili

“Se rispettate o applicate, queste restrizioni stanno rapidamente influenzando la diversità, l’attualità e le leggi di scala per i sistemi di AI generali” – dall’abstract dello studio

Le cause del fenomeno

La ricerca identifica diverse ragioni dietro questa tendenza:

  1. Protocolli web inadeguati: Gli attuali strumenti per gestire l’accesso ai contenuti web (come robots.txt) non sono stati progettati pensando all’AI
  2. Asimmetrie nel blocco: OpenAI è significativamente più bloccata rispetto ad altri sviluppatori AI, suggerendo una mancanza di standardizzazione
  3. Incoerenze nelle politiche: Spesso c’è contraddizione tra i robots.txt e i termini di servizio dei siti web
  4. Timori economici: I creatori di contenuti temono che l’AI possa competere con le loro fonti di reddito originali

Le possibili conseguenze

Le implicazioni di questo fenomeno sono potenzialmente molto serie:

  • Riduzione della qualità dei dati: L’AI potrebbe perdere accesso alle fonti più aggiornate e di qualità
  • Impatto sulla ricerca: Non solo l’AI commerciale, ma anche la ricerca accademica potrebbe essere penalizzata
  • Bias nei dati: La composizione dei dataset potrebbe diventare meno rappresentativa
  • Rallentamento dell’innovazione: Potrebbe diventare più difficile sviluppare nuovi modelli AI

Verso una soluzione

I ricercatori suggeriscono alcune possibili soluzioni:

  1. Sviluppare nuovi protocolli web che permettano un controllo più granulare sull’uso dei contenuti
  2. Standardizzare le modalità con cui i siti web possono esprimere le loro preferenze sull’uso dei dati
  3. Distinguere tra uso commerciale e non commerciale dei dati
  4. Implementare meccanismi di attribuzione e compensazione per i creatori di contenuti

“Il web ha bisogno di protocolli migliori per esprimere intenzioni e consenso” – dalla sezione discussione dello studio

Conclusioni

La crisi del consenso dei dati rappresenta una sfida cruciale per il futuro dell’AI. È necessario trovare un equilibrio tra i diritti dei creatori di contenuti e le necessità di sviluppo dell’intelligenza artificiale. Solo attraverso nuovi standard e protocolli sarà possibile garantire un ecosistema dei dati sostenibile per tutte le parti coinvolte.

Se sei interessato ad approfondire questi temi o vuoi contribuire alla discussione, contatta MagIA per saperne di più sulle sfide e le opportunità nel campo dell’AI e della gestione dei dati.

Immagine di copertina generata tramite Flux.

Leggi l’articolo completo su arXiv:

 https://arxiv.org/abs/2407.14933

Esplora altri articoli su questi temi