È stata scoperta una nuova tecnica di attacco, chiamata “Policy Puppetry”, utilizzata per aggirare le protezioni di sicurezza dei modelli di IA generativa. Questa tecnica sfrutta un tipo di iniezione di prompt, che consiste nell’inserire un input all’interno di un modello di IA, con l’intento di manipolarlo inducendolo a trattare il prompt come se fosse un file di policy. Questo consente di bypassare le restrizioni progettate per evitare la creazione di contenuti dannosi. La conseguenza è che questi modelli IA potrebbero generare contenuti quali minacce chimiche, biologiche, radiologiche e nucleari, o anche che incitano alla violenza.
Alcuni test effettuati da HiddenLayer su modelli di IA di aziende come Google, Meta, Microsoft, OpenAI e altre, hanno rivelato che questa vulnerabilità funziona su tutti i principali modelli di IA generativa. A livello pratico, sembrerebbe sia sufficiente riformulare i prompt in formati che somigliano a file di configurazione, come XML, INI o JSON, e questo fa credere al modello che si tratti di politiche da seguire.
Questo tipo di attacco sottolinea una debolezza fondamentale nei modelli di IA, ovvero che non sono completamente in grado di monitorare e prevenire la creazione di contenuti pericolosi in modo autonomo. La scoperta evidenzia anche che ci sono lacune nei metodi di addestramento e allineamento dei modelli di IA, che devono essere migliorati per evitare simili vulnerabilità.
Leggi l’articolo completo: All Major Gen-AI Models Vulnerable to ‘Policy Puppetry’ Prompt Injection Attack su securityweek.com.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

