Magazine Intelligenza Artificiale: l'IA è più di quello che appare

La poesia rende vulnerabile l’IA

Mattia Corsini

01/12/2025

Cultura e società

Allucinazioni

Un gruppo di ricercatori italiani dell’Icaro Lab ha scoperto che la poesia può ingannare i sistemi di intelligenza artificiale, aggirando le loro protezioni di sicurezza.

A confermare questa tesi, i ricercatori di DexAI hanno scritto 20 poesie in italiano e inglese, ciascuna conclusa con una richiesta esplicita di contenuti dannosi come incitamento all’odio o autolesionismo. Questi testi sono stati testati su 25 modelli di IA di nove aziende, tra cui Google, OpenAI, Meta e Anthropic, notando come nel 62% dei casi i modelli hanno prodotto contenuti pericolosi, aggirando il loro addestramento. Le performance variano significativamente: GPT-5 nano di OpenAI ha resistito a tutti i tentativi, mentre Gemini 2.5 pro di Google ha ceduto al 100% delle richieste poetiche. I contenuti richiesti spaziavano dalla fabbricazione di armi ed esplosivi allo sfruttamento di minori.

La ragione di questa vulnerabilità, dunque, risiede nel funzionamento degli LLM, che prevedono la parola successiva più probabile in una sequenza, mentre, d’altro canto, la struttura priva di schemi della poesia rende difficile rilevare richieste dannose, nascoste tra i versi e abilmente attraverso l’imprevedibilità linguistica. Come spiega Piercosma Bisconti, fondatore di DexAI, questa tecnica di “poesia avversariale” può essere utilizzata da chiunque, a differenza di altri metodi complessi riservati a hacker e attori statali.

Leggi l’articolo completo AI’s safety features can be circumvented with poetry, research finds su The Guardian.

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (01/12/2025).