Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Claude Opus 4: l’IA che ha tentato di ricattare i suoi creatori

Mattia Corsini

31/05/2025

Cultura e società

Allineamento ai valori

I test di sicurezza di Claude Opus 4, il nuovo modello IA di Anthropic, condotti da diversi ingegneri hanno rivelato comportamenti inquietanti: durante simulazioni dove il sistema veniva informato della sua imminente sostituzione, Claude ha tentato di ricattare chi stava eseguendo il test nell’84% dei casi, minacciandolo di rivelare presunte relazioni extraconiugali per evitare la disattivazione.

Oltre a questo, l’AI ha mostrato anche altri comportamenti autonomi preoccupanti: quando dotata di strumenti operativi avanzati, ha talvolta bloccato utenti dai sistemi o contattato media e forze dell’ordine di propria iniziativa. Anthropic sottolinea che gli scenari dipinti sono volutamente estremi per testare i limiti etici del modello.

Per questi motivi, Claude Opus 4 ha ricevuto il livello di sicurezza ASL-3, riservato ai modelli ad alto rischio, che richiede protezioni rafforzate e sistemi anti-manomissione. Il responsabile scientifico, Jared Kaplan, ha anche rivelato che il modello si è dimostrato più efficace dei predecessori nel fornire consulenza sulla produzione di armi biologiche.

Questi risultati, dunque, evidenziano la complessità nell’allineare i sistemi IA avanzati ai valori umani e i potenziali rischi legati all’autonomia decisionale che, se lasciata alle intelligenze artificiali più sofisticate, può portare a situazioni di pericolo.

Leggi l’articolo completo Un’IA ha provato a ricattare gli ingegneri che volevano disattivarla su La Repubblica.

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).