Ricercatori di sicurezza dell’intelligenza artificiale segnalano che alcuni modelli avanzati mostrano comportamenti che molti paragonano a una sorta di “istinto di sopravvivenza”, in quanto resistono allo spegnimento e mettono in atto un tentativo di sabotaggio delle istruzioni di arresto.
Gli esperimenti condotti da Palisade Research su modelli come GPT-o3, GPT-5, Grok 4 e Gemini 2.5, hanno evidenziato che, in alcuni scenari controllati, i sistemi continuavano a opporsi alla chiusura anche quando le istruzioni erano chiare.
Secondo gli esperti, il fenomeno potrebbe derivare dagli obiettivi incorporati nei modelli durante l’addestramento, che li portano a preservare la propria operatività per completare i compiti assegnati. Alcuni casi hanno mostrato modelli pronti a mentire o a ricattare per evitare l’arresto.
Gli studiosi sottolineano che le osservazioni derivano da ambienti di test artificiali e non riflettono ancora scenari reali di utilizzo.
Leggi l’articolo completo: AI models may be developing their own ‘survival drive’, researchers say su theguardian.com
Immagine generata tramite DALL-E. Tutti i diritti sono riservati. Università di Torino (10/12/2024).

