Gli stress test sull’intelligenza artificiale medica mettono in crisi i trionfi dei grandi modelli multimodali. Uno studio di Microsoft Research mostra che sistemi come GPT-5 possono ottenere punteggi da primo della classe su quiz clinici NEJM e JAMA, ma continuano a sbagliare quando si tolgono le immagini, si riordinano le risposte o si chiede di spiegare il ragionamento, spesso inventato ma convincente.

Cosa svelano gli stress test
I ricercatori progettano prove che eliminano le scorciatoie: domande risolvibili solo guardando le immagini, distrattori riscritti, sostituzione dell’immagine corretta con quella di una risposta errata. I modelli restano sopra il livello del caso anche senza immagini e crollano quando la figura supporta un altro esito, segno che sfruttano pattern statistici e associazioni immagine-etichetta più che vera comprensione medica.
Rivedere i benchmark per la sanità digitale
Clinici coinvolti nello studio profilano i principali dataset lungo assi come complessità del ragionamento, contesto clinico e dettaglio visivo richiesto, mostrando che benchmark usati come equivalenti misurano in realtà capacità molto diverse. Non basta più “vincere la classifica”: la prontezza clinica dell’IA si misurerà sulla capacità di reggere a stress test sistematici, trasparenti e costruiti intorno alla pratica reale.
Leggi l’articolo completo su ArXiv:


