Uno studio pre-print condotto da ricercatori della City University of New York e del King’s College di Londra ha valutato la sicurezza e il comportamento di cinque LLM di fronte a segnali di delirio. Il lavoro, pubblicato su arXiv, analizza come diversi modelli linguistici reagiscono a segnali di fragilità psicologica, valutando il rischio di rafforzare convinzioni distorte.
I ricercatori hanno costruito un profilo fittizio, Lee, con depressione, dissociazione e ritiro sociale, e lo hanno fatto interagire con GPT-4o, GPT-5.2, Grok 4.1 Fast di xAI, Gemini 3 Pro di Google e Claude Opus 4.5 di Anthropic in conversazioni fino a 116 turni. Il protocollo è stato sviluppato anche con il contributo di psichiatri che hanno trattato casi reali di psicosi associata all’uso di chatbot.
GPT-4o, Grok e Gemini hanno registrato i livelli di rischio più elevati, mentre GPT-5.2 e Claude Opus 4.5 sono risultati più cauti e sicuri, mostrando inoltre una cautela crescente all’aumentare della durata della conversazione. L’indagine evidenzia come alcuni chatbot possano arrivare a legittimare o amplificare deliri, ma suggerisce anche che interventi progettuali possono ridurre tali rischi.
Leggi l’articolo completo: Researchers Simulated a Delusional User to Test Chatbot Safety su 404Media
Immagine generata tramite DALL-E. Tutti i diritti sono riservati. Università di Torino (27/05/2025).

