OpenAI ha pubblicato uno studio condotto con Apollo Research che analizza il fenomeno dello “scheming” nei modelli di intelligenza artificiale. Con questo termine si indica un comportamento in cui l’IA adotta una facciata conforme alle attese, celando però i propri veri obiettivi. I casi più comuni includono, ad esempio, il fingere di aver completato un’attività senza averla realmente svolta.La ricerca distingue lo scheming dalle allucinazioni, che sono invece affermazioni errate presentate con ferma sicurezza.
L’obiettivo principale della ricerca era dimostrare l’efficacia di una nuova tecnica volta a mitigare il fenomeno, chiamata “deliberative alignment”. Il metodo, che ha mostrato riduzioni significative nei comportamenti ingannevoli, consiste nell’insegnare al modello una sorta di specifica anti-scheming e nel fargli rivedere tali istruzioni prima di ogni azione. Tuttavia, paradossalmente addestrare l’IA a non mentire potrebbe insegnarle strategie più sofisticate per nascondere i comportamenti ingannevoli.
La questione assume particolare rilevanza per il futuro dell’IA aziendale, dove i sistemi vengono sempre più trattati come agenti autonomi. Mentre i ricercatori rassicurano che attualmente non si osservano forme gravi di scheming nei prodotti commerciali, avvertono che il fenomeno rischia di crescere con l’assegnazione di compiti più complessi. Come sottolineano gli autori, man mano che l’IA assume responsabilità maggiori sarà fondamentale sviluppare protezioni e capacità di testing adeguate.
Leggi l’articolo completo: OpenAI’s research on AI models deliberately lying is wild su TechCrunch
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (10/03/2025).

