Stress test intelligenza artificiale medica: l’illusione dei benchmark

Giovanni Siragusa

16/12/2025

Gli stress test sull’intelligenza artificiale medica mettono in crisi i trionfi dei grandi modelli multimodali. Uno studio di Microsoft Research mostra che sistemi come GPT-5 possono ottenere punteggi da primo della classe su quiz clinici NEJM e JAMA, ma continuano a sbagliare quando si tolgono le immagini, si riordinano le risposte o si chiede di spiegare il ragionamento, spesso inventato ma convincente.

Cosa svelano gli stress test

I ricercatori progettano prove che eliminano le scorciatoie: domande risolvibili solo guardando le immagini, distrattori riscritti, sostituzione dell’immagine corretta con quella di una risposta errata. I modelli restano sopra il livello del caso anche senza immagini e crollano quando la figura supporta un altro esito, segno che sfruttano pattern statistici e associazioni immagine-etichetta più che vera comprensione medica.

Rivedere i benchmark per la sanità digitale

Clinici coinvolti nello studio profilano i principali dataset lungo assi come complessità del ragionamento, contesto clinico e dettaglio visivo richiesto, mostrando che benchmark usati come equivalenti misurano in realtà capacità molto diverse. Non basta più “vincere la classifica”: la prontezza clinica dell’IA si misurerà sulla capacità di reggere a stress test sistematici, trasparenti e costruiti intorno alla pratica reale.

Leggi l’articolo completo su ArXiv:

The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks

Large frontier models like GPT-5 now achieve top scores on medical benchmarks. But our stress tests tell a different story. Leading systems often guess correctly even when key inputs like images are removed, flip answers under trivial prompt changes, and fabricate convincing yet flawed reasoning. These aren’t glitches; they expose how today’s benchmarks reward test-taking tricks over medical understanding. We evaluate six flagship models across six widely used benchmarks and find that high leaderboard scores hide brittleness and shortcut learning. Through clinician-guided rubric evaluation, we show that benchmarks vary widely in what they truly measure yet are treated interchangeably, masking failure modes. We caution that medical benchmark scores do not directly reflect real-world readiness. If we want AI to earn trust in healthcare, we must demand more than leaderboard wins and must hold systems accountable for robustness, sound reasoning, and alignment with real medical demands.