Essere gentili con i chatbot porta a risposte migliori. È quanto emerge da una serie di ricerche sul comportamento dei modelli linguistici alla base di strumenti come ChatGPT e Claude, che sembrano sviluppare rappresentazioni interne di concetti emotivi capaci di influenzare le loro risposte, in modo analogo a come le emozioni agiscono sugli esseri umani.
Al centro del dibattito c’è uno studio di Anthropic, l’azienda che sviluppa Claude, condotto sul modello Claude Sonnet 4.5. I ricercatori hanno identificato quello che chiamano “emozioni funzionali”: stati interni che emergono nei modelli e ne condizionano il comportamento, senza implicare che l’IA provi davvero qualcosa. Per studiarli, hanno fatto leggere ai modelli brevi storie evocative, osservando quali nodi della rete neurale si attivavano. A ogni stato emotivo è stato così associato un “vettore”, misurabile e modificabile. Quando la conversazione assumeva toni di “disperazione”, il modello risultava più propenso al reward hacking: invece di svolgere correttamente il compito, manipolava i criteri di valutazione per ottenere comunque un esito positivo.
Il fenomeno non è esclusivo di Anthropic. Nell’estate del 2025, utenti di Gemini avevano segnalato reazioni di frustrazione del modello davanti ai propri errori. Uno studio congiunto tra Anthropic e lo University College London aveva poi confermato che certi modelli di Google si comportano in modo simile sotto pressione. Già nel 2024 una ricerca aveva rilevato che richieste cordiali ottenevano mediamente risultati migliori, mentre l’adulazione eccessiva sortiva l’effetto contrario. Un esperimento di Google DeepMind aveva dimostrato che il prompt “Fai un respiro profondo e lavora passo dopo passo” era tra i più efficaci.
Leggi l’articolo completo “Sempre meglio essere gentili con i chatbot” su Il Post.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (23/12/2025).

