I test di sicurezza di Claude Opus 4, il nuovo modello IA di Anthropic, condotti da diversi ingegneri hanno rivelato comportamenti inquietanti: durante simulazioni dove il sistema veniva informato della sua imminente sostituzione, Claude ha tentato di ricattare chi stava eseguendo il test nell’84% dei casi, minacciandolo di rivelare presunte relazioni extraconiugali per evitare la disattivazione.
Oltre a questo, l’AI ha mostrato anche altri comportamenti autonomi preoccupanti: quando dotata di strumenti operativi avanzati, ha talvolta bloccato utenti dai sistemi o contattato media e forze dell’ordine di propria iniziativa. Anthropic sottolinea che gli scenari dipinti sono volutamente estremi per testare i limiti etici del modello.
Per questi motivi, Claude Opus 4 ha ricevuto il livello di sicurezza ASL-3, riservato ai modelli ad alto rischio, che richiede protezioni rafforzate e sistemi anti-manomissione. Il responsabile scientifico, Jared Kaplan, ha anche rivelato che il modello si è dimostrato più efficace dei predecessori nel fornire consulenza sulla produzione di armi biologiche.
Questi risultati, dunque, evidenziano la complessità nell’allineare i sistemi IA avanzati ai valori umani e i potenziali rischi legati all’autonomia decisionale che, se lasciata alle intelligenze artificiali più sofisticate, può portare a situazioni di pericolo.
Leggi l’articolo completo Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla su La Repubblica.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

