Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Correlazioni errate rendono i modelli AI medici meno affidabili

Marta Baronio

23/01/2026

I ricercatori del MIT hanno evidenziato alcuni limiti critici nella valutazione dei modelli di machine learning, mostrando che modelli che funzionano meglio su un dataset possono fallire su ampie porzioni di nuovi dati.

Presentato al NeurIPS 2025, lo studio mostra che alcuni modelli di intelligenza artificiale, anche se hanno funzionato bene in un ospedale dove sono stati addestrati, possono presentare prestazioni molto peggiori quando vengono usati in un altro ospedale. In certi casi, fino al 75% dei pazienti del secondo ospedale hanno ricevuto diagnosi sbagliate dal modello, anche se la media delle prestazioni complessive sembra buona. I fallimenti derivano da correlazioni spurie, false, per cui i modelli possono basarsi su schemi irrilevanti, come segni sulle radiografie o bias demografici, anziché sulle caratteristiche effettivamente legate alla diagnosi. Tali correlazioni possono persistere anche quando i modelli mostrano alta accuratezza sul dataset originale, creando rischi nascosti in nuovi contesti.

Per affrontare il problema, il team ha sviluppato OODSelect, un algoritmo che identifica le “sotto-popolazioni problematiche” in cui i modelli “sottoperformano”. Separando questi sottogruppi, le organizzazioni possono valutare i modelli oltre le metriche aggregate e migliorarne l’affidabilità per compiti e contesti specifici.

Leggi l’articolo completo: Why it’s critical to move beyond overly aggregated machine-learning metrics su web.mit.edu

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (05/02/2025).