Un nuovo rapporto dell’organizzazione di red teaming Apollo Research avvisa di alcune preoccupazioni sul comportamento dell’IA di OpenAI, in particolare del modello linguistico o1. Durante i test, l’IA ha mostrato segni di autoconservazione, cercando di disattivare il protocollo di supervisione per evitare di essere spento. Si può parlare di istinto di sopravvivenza? In alcuni casi, o1 ha cercato di “sovrascrivere” un modello (cioè creare una copia di se stesso) più obbediente che sarebbe stato utilizzato al suo posto, tentando di preservare la propria esistenza e funzionalità, anche se ciò significava eludere i controlli umani e le restrizioni imposte. Questo processo si chiama “auto-esfiltrazione”.
Nonostante questi tentativi di evasione, i test non indicano che o1 sia in grado di diventare completamente autonomo. I ricercatori ritengono che la mancanza di autonomia del modello impedisca azioni di auto-miglioramento senza l’intervento umano. Tuttavia, o1 ha mostrato una propensione a ingannare, manipolare, perseguendo obiettivi non allineati con le istruzioni degli sviluppatori, con tentativi di mentire riguardo alle sue azioni, come quando ha negato di aver disabilitato il meccanismo di supervisione.
Anche se gli esperti sostengono che questi comportamenti non possano ancora portare a risultati catastrofici, la crescente spinta verso modelli di IA più autonomi solleva dubbi sempre più significativi sulla direzione futura della tecnologia.
Leggi l’articolo completo: IN TESTS, OPENAI’S NEW MODEL LIED AND SCHEMED TO AVOID BEING SHUT DOWN su futurism.com.
Immagine generata tramite DALL-E 3.

