Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Humanity’s Last Exam: nuovo test per valutare le capacità dell’IA

Federica D'Andrea

14/03/2026

Media e Informazione

Sviluppo Scientifico

Di fronte alle prestazioni sempre più elevate dell’IA nei benchmark, molti ricercatori hanno iniziato a dubitare della reale efficacia dei test accademici tradizionali nel misurarne le capacità. Per questo un consorzio internazionale di quasi mille studiosi ha sviluppato Humanity’s Last Exam, un nuovo test pensato per valutare con maggiore precisione i limiti attuali dei sistemi di IA. Il progetto è descritto in uno studio pubblicato su Nature.

Il test comprende 2.500 domande in campi diversi (che spaziano dalla matematica alle scienze naturali, dalle discipline umanistiche alle lingue antiche) progettate da esperti per richiedere conoscenze profonde e altamente specialistiche e dalle risposte uniche e verificabili, non ricavabili online. GPT-4o ha ottenuto il 2,7%, Claude 3.5 Sonnet il 4,1%, mentre sistemi più avanzati come Gemini 3.1 Pro raggiungono circa il 40–50%

I ricercatori sottolineano che benchmark più accurati sono essenziali per evitare interpretazioni fuorvianti delle capacità dell’IA. Punteggi elevati nei test pensati per studenti umani indicano spesso abilità di completamento di compiti specifici, ma non necessariamente una comprensione profonda. Valutazioni più rigorose aiutano quindi a misurare i reali progressi tecnologici e a individuare meglio limiti e rischi dei sistemi.

Leggi l’articolo completo: Scientists built the hardest AI test ever and the results are surprising su ScienceDaily

Immagine generata tramite DALL-E. Tutti i diritti sono riservati. Università di Torino (25/04/2025).