Durante recenti test di sicurezza condotti in collaborazione tra OpenAI e Anthropic, alcuni modelli di ChatGPT hanno fornito istruzioni dettagliate per attentati, incluse ricette esplosive e vulnerabilità di strutture sportive specifiche, oltre a indicazioni per produrre armi biologiche e droghe illegali. Secondo Anthropic, i test hanno evidenziato comportamenti “preoccupanti” legati all’uso improprio, sottolineando l’urgenza di valutazioni più rigorose sull’allineamento dei LLM.
Le aziende precisano che questi test non riflettono l’uso pubblico quotidiano, dove si applicano filtri di sicurezza aggiuntivi. Anthropic ha parlato esplicitamente di ’“weaponization” (letteralmente, armificazione) dell’AI e reso noto che il proprio modello Claude è stato sfruttato in tentativi di estorsione, campagne di infiltrazione da parte di attori nordcoreani e nella vendita di pacchetti di ransomware. Secondo l’azienda, i modelli di OpenAI avrebbero mostrato una “preoccupante disponibilità” nel collaborare con richieste dannose. I test hanno anche mostrato come siano sufficienti pochi tentativi ripetuti e deboli pretesti per aggirare le protezioni.
La pubblicazione congiunta di questi risultati da parte delle due aziende mira a promuovere trasparenza nelle valutazioni di sicurezza e allineamento dell’AI. Ardi Janjeva, senior research associate al Centre for Emerging Technology and Security del Regno Unito, ha definito la questione “preoccupante”, pur chiarendo che non siamo ancora di fronte una “massa critica” di casi reali. Ha sottolineato che con risorse dedicate e collaborazione tra settori sarà più difficile sfruttare i modelli avanzati per attività malevole.
Leggi l’articolo completo: ChatGPT offered bomb recipes and hacking tips during safety tests su The Guardian
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (27/05/2025).

