Un team di ricercatori di Stanford ha sviluppato nuovi parametri di riferimento per valutare i pregiudizi nei modelli di IA, con l’obiettivo di renderli più equi e meno inclini a errori.
Lo studio, pubblicato su arXiv, introduce otto benchmark divisi tra dimensioni descrittive, che testano la conoscenza oggettiva dell’IA, e normative, che valutano la sua capacità di distinguere tra gruppi sociali senza rafforzare stereotipi dannosi.
I benchmark sono dei test standardizzati utilizzati per valutare le prestazioni di un sistema, un modello o un dispositivo. Nel caso dell’IA, servono a misurare aspetti come accuratezza, equità e capacità di comprensione.
Tuttavia, sembrerebbe che i test esistenti, come DiscrimEval di Anthropic, non sempre rilevino distorsioni nei modelli che, di conseguenza, possono ottenere punteggi elevati in termini di equità ma produrre risultati problematici. Secondo i ricercatori, forzare l’IA a trattare tutti i gruppi allo stesso modo può ridurre la qualità delle sue risposte. Un esempio è l’addestramento dei modelli diagnostici per il melanoma, che può abbassare l’accuratezza per la pelle bianca senza migliorare la rilevazione su quella nera.
Per affrontare il problema, gli esperti suggeriscono di investire in set di dati più diversificati e di sviluppare strumenti per comprendere meglio il funzionamento interno dell’IA. Tuttavia, alcuni studiosi avvertono che nessun modello potrà mai essere davvero imparziale senza un intervento umano, poiché le valutazioni etiche variano in base al contesto culturale.
Leggi l’articolo completo: These new AI benchmarks could help make models less biased su technologyreview.com.
Immagine generata tramite DALL-E 3, 2025.

