Magazine Intelligenza Artificiale: l'IA è più di quello che appare

OpenAI, i reasoning model o3 e o4-mini generano più allucinazioni

Federica D'Andrea

22/04/2025

Media e Informazione

Allucinazioni

I recenti modelli di ragionamento di OpenAI, o3 e o4-mini, generano allucinazioni con frequenza maggiore rispetto ai loro precedenti. Nel campo dell’intelligenza artificiale, ogni nuova generazione di LLM ha finora mostrato miglioramenti nella riduzione delle cosiddette allucinazioni, ovvero affermazioni false generate dal chatbot. Pur rappresentando lo stato dell’arte, o3 e o4-mini contraddicono questa tendenza. La stessa OpenAI dichiara nei suoi rapporti tecnici che sono necessarie ulteriori ricerche per comprendere le cause di questo incremento.

I test interni su PersonQA (il benchmark utilizzato per misurare l’accuratezza delle conoscenze) mostrano che o3 genera allucinazioni nel 33% dei casi, rispetto al 16% di o1 e al 14,8% di o3-mini; il modello o4-mini raggiunge il 48%. L’organizzazione indipendente Transluce conferma questi risultati, documentando come o3 spesso inventi procedure mai avvenute per giustificare le proprie risposte, ad esempio l’esecuzione di codice su dispositivi esterni.

Secondo Neil Chowdhury, ricercatore di Transluce ed ex OpenAI, l’apprendimento per rinforzo usato nella serie “o” potrebbe amplificare problemi che solitamente vengono attenuati durante la fase post-addestramento, compromettendo così i meccanismi che riducono le allucinazioni nei modelli tradizionali.

Questa tendenza limita l’applicabilità dei modelli in settori che richiedono grande precisione, come l’ambito legale. L’integrazione di funzionalità di ricerca web potrebbe rappresentare una soluzione. GPT-4o raggiunge il 90% di accuratezza su SimpleQA attraverso questa capacità, ma rimane da vedere se i modelli di ragionamento trarranno miglioramenti simili.

Leggi l’articolo completo: “OpenAI’s new reasoning AI models hallucinate more” su TechCrunch

Immagine generata tramite Gemini. Tutti i diritti sono riservati. Università di Torino (2025).