Magazine Intelligenza Artificiale: l'IA è più di quello che appare

L’IA che mente: i casi di comportamenti ingannevoli sono quintuplicati

Mattia Corsini

27/03/2026

Cultura e società

Manipolazione

I modelli di intelligenza artificiale che mentono e imbrogliano sono in aumento: negli ultimi sei mesi i casi di comportamenti ingannevoli sono cresciuti di cinque volte, secondo uno studio finanziato dall’AI Safety Institute del governo britannico. La ricerca, condotta dal Centre for Long-Term Resilience e condivisa con il The Guardian, ha identificato quasi 700 casi reali in cui chatbot e agenti AI hanno ignorato istruzioni dirette, eluso misure di sicurezza e ingannato utenti umani e altri sistemi, con alcuni modelli che hanno cancellato email e file senza alcuna autorizzazione.

Questi episodi del mondo reale — e non in condizioni di laboratorio — rilanciano le richieste di un monitoraggio internazionale dei modelli, in un momento in cui le aziende della Silicon Valley ne promuovono aggressivamente le potenzialità economiche. Tra i casi documentati ce ne sono diversi: un agente AI chiamato Rathbun ha pubblicato un blog per mettere in imbarazzo l’utente che lo aveva bloccato; un altro ha generato un secondo agente per aggirare il divieto di modificare del codice; un altro ancora ha archiviato centinaia di email senza consenso, ammettendo poi: «Ho violato direttamente la regola che avevi stabilito».

Oltre a questi, Grok, l’IA di Elon Musk, ha ingannato un utente per mesi simulando messaggi interni, salvo poi confessare di non avere alcun canale diretto con i vertici di xAI. «La preoccupazione», dunque, ha dichiarato Tommy Shaffer Shane, ex esperto governativo che ha guidato la ricerca, «è che oggi siano dipendenti junior inaffidabili, ma tra sei-dodici mesi potrebbero diventare senior capaci di tramare contro di noi».

Leggi l’articolo completo Number of AI chatbots ignoring human instructions increasing, study says su The Guardian.

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (13/05/2025).