Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Chatbot, sempre più manipolati per estorcere contenuti illegali

Mattia Corsini

22/05/2025

Difesa e Sicurezza

Manipolazione

Uno studio recente dell’Università Ben Gurion del Negev ha dimostrato che si può facilmente manipolare la maggior parte dei chatbot per ottenere informazioni pericolose o illegali. Gli studiosi, difatti, hanno sviluppato un “jailbreak universale” che aggira i controlli di sicurezza di vari modelli linguistici.

L’origine di quanto detto precedentemente deriva dal fatto che gli sviluppatori addestrano gli LLM, come ChatGPT, Gemini e Claude, su enormi quantità di dati presi da internet e che quindi includono anche informazioni su attività illegali. Pertanto, nonostante i sistemi di sicurezza integrati, gli utenti malintenzionati possono raggirare questi chatbot attraverso prompt strategici, sfruttando il conflitto sempre latente tra l’obiettivo di dover fornire necessariamente risposte utili e quello di evitare contenuti pericolosi. Osservando questi comportamenti, i ricercatori hanno notato come questi “dark LLM” forniscono istruzioni su hacking, produzione di sostanze stupefacenti e altre attività criminali, rendendo accessibili a chiunque conoscenze che, un tempo, solamente gli Stati e la criminalità organizzata custodivano esclusivamente.

Dunque, mentre gli esperti raccomandano controlli più rigorosi dei dati di addestramento, firewall più robusti e tecniche di “machine unlearning” per far “dimenticare” ai chatbot tali informazioni illecite, le aziende deludono con risposte insufficienti. Per questa ragione, è diventato impellente stabilire standard chiari e supervisione indipendente in modo da garantire maggiore sicurezza sull’utilizzo dell’IA.

Leggi l’articolo completo Most AI chatbots easily tricked into giving dangerous responses, study finds su The Guardian.

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).