L’IA si evolve rapidamente, ma cresce anche la consapevolezza che i metodi attuali per valutarla non sono più così adeguati.
Infatti, i benchmark tradizionali usati finora per confrontare le prestazioni dei modelli, risultano sempre più inefficaci. I punteggi migliorano, ma non sempre questo corrisponde a un effettivo progresso nelle capacità dei sistemi. Il settore ha imparato ad addestrare i modelli a ottenere risultati alti senza che ciò implichi una reale comprensione o intelligenza. In sostanza, i programmatori sanno addestrare in funzione del test al quale verrà sottoposta l’IA. Inoltre, molti benchmark sono ormai saturi o compromessi da contaminazioni nei dati d’addestramento.
Per affrontare la crisi, i ricercatori e le aziende stanno sviluppando nuovi strumenti. Uno di questi si chiama LiveCodeBench Pro, basato su problemi tratti dalle olimpiadi algoritmiche internazionali, competizioni per programmatori d’élite di scuole superiori e università, in cui i partecipanti risolvono problemi complessi senza strumenti esterni. Il progetto è stato guidato da Zihan Zheng (studente presso la NYU), che sottolinea come l’IA eccella in esecuzione ma inciampi nel ragionamento algoritmico.
Altri strumenti, invece, hanno l’obiettivo di arginare il fenomeno dell’overfitting. LiveBench (Meta) propone domande che cambiano ogni sei mesi. ARC-AGI mantiene riservata parte dei suoi dati. Il benchmark cinese Xbench, sviluppato da HongShan Capital, invece, si contraddistingue per la valutazione a doppio binario, ovvero capacità tecniche e utilità pratica. L’obiettivo è quello di colmare il divario tra laboratorio e applicazioni reali.
Parallelamente, crescono iniziative che puntano a includere anche preferenze umane e valutazioni soggettive. La piattaforma LMarena, ad esempio, consente agli utenti di confrontare risposte di diversi modelli e scegliere quella preferita. Ma anche questo approccio non è privo di rischi.
Leggi l’articolo completo: Can we fix AI’s evaluation crisis? su technologyreview.com.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

