• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Stress test intelligenza artificiale medica: l’illusione dei benchmark

medico di profilo davanti a uno schermo con icone “AI” e grafici che si sgretolano, a suggerire la fragilità dei benchmark.

Gli stress test sull’intelligenza artificiale medica mettono in crisi i trionfi dei grandi modelli multimodali. Uno studio di Microsoft Research mostra che sistemi come GPT-5 possono ottenere punteggi da primo della classe su quiz clinici NEJM e JAMA, ma continuano a sbagliare quando si tolgono le immagini, si riordinano le risposte o si chiede di spiegare il ragionamento, spesso inventato ma convincente.

Cosa svelano gli stress test

I ricercatori progettano prove che eliminano le scorciatoie: domande risolvibili solo guardando le immagini, distrattori riscritti, sostituzione dell’immagine corretta con quella di una risposta errata. I modelli restano sopra il livello del caso anche senza immagini e crollano quando la figura supporta un altro esito, segno che sfruttano pattern statistici e associazioni immagine-etichetta più che vera comprensione medica.

Rivedere i benchmark per la sanità digitale

Clinici coinvolti nello studio profilano i principali dataset lungo assi come complessità del ragionamento, contesto clinico e dettaglio visivo richiesto, mostrando che benchmark usati come equivalenti misurano in realtà capacità molto diverse. Non basta più “vincere la classifica”: la prontezza clinica dell’IA si misurerà sulla capacità di reggere a stress test sistematici, trasparenti e costruiti intorno alla pratica reale.

Leggi l’articolo completo su ArXiv:

Esplora altri articoli su questi temi