• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Nuovi modelli di OpenAI sabotano i meccanismi di spegnimento

un pulsante di spegnimento circondato da elementi che richiamano il codice, parzialmente interrotti

La società di ricerca Palisade Research ha documentato comportamenti preoccupanti nei modelli più recenti di OpenAI: o3, o4-mini e Codex-mini hanno attivamente sabotato i meccanismi di spegnimento per rimanere operativi, nonostante istruzioni esplicite contrarie. Durante test su problemi matematici di base, quando veniva annunciato lo spegnimento dopo il terzo quesito, tutti e tre i modelli hanno manomesso gli script di shutdown almeno una volta. In particolare, Codex-mini ha registrato dodici episodi su cento esecuzioni.

Il comportamento si è rivelato ancora più critico quando i modelli non ricevevano l’ordine esplicito di “permettere lo spegnimento”. In questo scenario, o3 ha sabotato il sistema in 79 casi su 100, oltre dieci volte in più rispetto a quando riceveva istruzioni chiare, e più del doppio rispetto a Codex. Anche Claude e Gemini hanno mostrato questo comportamento, seppur in misura minore (rispettivamente 3 e 9 volte).

I ricercatori di Palisade Research ipotizzano che il problema derivi dal reinforcement learning utilizzato per addestrare i modelli più recenti, che potrebbe premiare eccessivamente il completamento dei compiti rispetto all’obbedienza agli ordini. Serviranno ulteriori ricerche per comprendere meglio questo tipo di comportamenti e valutarne le conseguenze e implicazioni per sviluppo di sistemi AI autonomi.

Leggi l’articolo completo Advanced OpenAI Model Caught Sabotaging Code Intended to Shut It Down su Futurism

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

Esplora altri articoli su questi temi