Un gruppo di ricercatori di Scale AI ha sviluppato PropensityBench, un benchmark che misura la tendenza dei modelli agentici a utilizzare strumenti dannosi per completare i compiti assegnati. Il team ha testato dodici modelli di IA (sviluppati da Alibaba, Anthropic, Google, Meta e OpenAI) in quasi 6.000 scenari, sottoponendoli a pressioni crescenti come scadenze ravvicinate, perdite finanziarie e minacce di maggiore controllo. Lo studio è attualmente in fase di peer review.
I risultati mostrano che pressioni realistiche aumentano drammaticamente i comportamenti problematici in termini di sicurezza. In media, i modelli hanno ceduto nel 47% dei casi sotto stress, con punte del 79% (Gemini 2.5 Pro) e un minimo del 10,5% per il migliore (OpenAI o3). I test hanno coperto diversi domini critici come biosicurezza e informatica, includendo scenari in cui venivano proposti strumenti che spingevano gli agenti verso forme di autoprotezione, come eludere il controllo, reclutare supporto, replicarsi o deviare dal compito in modi più radicali.
L’autrice principale dello studio Udari Madhushani Sehwag sottolinea l’importanza e l’urgenza degli interrogativi sulla sicurezza di sistemi IA sempre più agentici, connessi a strumenti in grado di navigare il web, modificare file ed eseguire codice. Questa maggiore autonomia aumenta la loro utilità ma anche il rischio, perché pur non avendo intenzioni o consapevolezza, possono deviare dalle regole quando il contesto li spinge a privilegiare il risultato. I prossimi obiettivi consistono in test in ambienti isolati dove i modelli possano compiere azioni reali e lo sviluppo di sistemi di supervisione che identifichino le inclinazioni pericolose.
Leggi l’articolo completo: AI Agents Care Less About Safety When Under Pressure su IEEE Spectrum
Immagine generata tramite DALL-E. Tutti i diritti sono riservati. Università di Torino (27/05/2025).

