Secondo un recente studio, i benchmark utilizzati per misurare i progressi nell’IA sono spesso inadeguati e mal progettati. Sebbene i modelli più avanzati, come GPT-4, vengano promossi come superiori rispetto a questi test, i risultati ottenuti sono difficili da replicare e le metriche utilizzate sono spesso arbitrarie. I benchmark sono cruciali perché influenzano le regolamentazioni dell’IA, come l’AI Act, che si basa su di essi per determinare i rischi sistemici. Tuttavia, molti di questi test non sono trasparenti, con codice obsoleto e set di dati non accessibili, il che complica la loro validazione.
Inoltre, alcuni benchmark sono ormai “saturi”, misurando problemi risolti da precedenti generazioni di IA e, quindi, non catturano più i progressi significativi. Per esempio, test come il MMLU hanno mostrato progressi limitati tra modelli successivi, ma senza rivelare reali miglioramenti nelle capacità. Alcuni esperti sostengono che il problema principale non siano i criteri di implementazione, ma la scelta delle capacità da misurare.
Per affrontare queste lacune, alcune iniziative stanno sviluppando benchmark più robusti, come il nuovo test di Epoch AI, creato con esperti matematici di alto livello, e il progetto Humanity’s Last Exam (HLE), che mira a misurare la comprensione avanzata.
Leggi l’articolo completo: The way we measure progress in AI is terrible su technologyreview.com.
Immagine generata tramite DALL-E 3.

