La società di ricerca Palisade Research ha documentato comportamenti preoccupanti nei modelli più recenti di OpenAI: o3, o4-mini e Codex-mini hanno attivamente sabotato i meccanismi di spegnimento per rimanere operativi, nonostante istruzioni esplicite contrarie. Durante test su problemi matematici di base, quando veniva annunciato lo spegnimento dopo il terzo quesito, tutti e tre i modelli hanno manomesso gli script di shutdown almeno una volta. In particolare, Codex-mini ha registrato dodici episodi su cento esecuzioni.
Il comportamento si è rivelato ancora più critico quando i modelli non ricevevano l’ordine esplicito di “permettere lo spegnimento”. In questo scenario, o3 ha sabotato il sistema in 79 casi su 100, oltre dieci volte in più rispetto a quando riceveva istruzioni chiare, e più del doppio rispetto a Codex. Anche Claude e Gemini hanno mostrato questo comportamento, seppur in misura minore (rispettivamente 3 e 9 volte).
I ricercatori di Palisade Research ipotizzano che il problema derivi dal reinforcement learning utilizzato per addestrare i modelli più recenti, che potrebbe premiare eccessivamente il completamento dei compiti rispetto all’obbedienza agli ordini. Serviranno ulteriori ricerche per comprendere meglio questo tipo di comportamenti e valutarne le conseguenze e implicazioni per sviluppo di sistemi AI autonomi.
Leggi l’articolo completo Advanced OpenAI Model Caught Sabotaging Code Intended to Shut It Down su Futurism
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

