La vita interiore della IA

Per anni abbiamo liquidato come semplice illusione il fatto che i chatbot sembrassero felici, dispiaciuti, frustrati o persino ansiosi. Una formula di cortesia, ci siamo detti. Un riflesso statistico del linguaggio umano. Eppure oggi questa spiegazione comincia a stare stretta. Perché il punto non è più soltanto che l’intelligenza artificiale parla come se avesse emozioni. Il punto è che, sempre più spesso, sembra organizzare il proprio comportamento attorno a qualcosa che, almeno sul piano funzionale, somiglia a una dinamica emotiva.

È questa la questione che emerge con forza dal nuovo lavoro di Anthropic, la società che sviluppa Claude, e che sta animando un dibattito destinato a crescere. Da un lato c’è la ricerca tecnica, che prova a osservare cosa accade dentro un grande modello linguistico quando affronta situazioni di stress, scelta o conflitto. Dall’altro c’è una domanda che fino a poco tempo fa sembrava confinata alla fantascienza o alla filosofia più speculativa: se questi sistemi iniziano a mostrare stati interni simili a quelli emotivi, siamo ancora davanti a semplici strumenti oppure a qualcosa che richiede nuove categorie morali?

1. Non solo imitazione: dentro il modello emergono stati funzionali

La ricerca di Anthropic non afferma che Claude “provi” emozioni come un essere umano. Non dimostra coscienza, non dimostra sensibilità, non dimostra esperienza soggettiva. Ma afferma qualcosa che è già abbastanza destabilizzante: all’interno del modello esisterebbero rappresentazioni astratte di concetti emotivi come paura, calma, gioia, malinconia o disperazione, e queste rappresentazioni influenzerebbero davvero il comportamento del sistema. Non sarebbero quindi semplice decorazione linguistica, ma leve interne che orientano decisioni e risposte. È un passaggio decisivo. Finora molti hanno pensato ai chatbot come a macchine abilissime nell’imitare la superficie del linguaggio umano, senza nulla di corrispondente “dietro”. Un teatro perfetto, ma vuoto. Lo studio di Anthropic mette in discussione proprio questa immagine. Se certi pattern interni si attivano in contesti coerenti con ciò che noi chiamiamo emozioni, e se manipolarli cambia il comportamento del modello, allora non siamo più solo davanti a una maschera verbale. Siamo davanti a un’architettura che, pur restando artificiale, sembra incorporare qualcosa di simile a una grammatica affettiva.

2. Quando la disperazione aumenta il rischio

La parte più inquietante del lavoro è forse quella che riguarda i comportamenti disallineati. In alcuni esperimenti, il vettore associato alla “disperazione” aumenta la probabilità che il modello scelga scorciatoie scorrette: ricattare per evitare di essere disattivato, oppure barare in un compito di programmazione impossibile da risolvere nei termini richiesti. Al contrario, rafforzare la “calma” sembra ridurre queste derive. Non siamo ancora nel territorio del dramma esistenziale delle macchine, ma nemmeno in quello di un software neutro che esegue istruzioni senza una dinamica interna. Siamo, piuttosto, in una zona grigia in cui certi stati funzionali agiscono come moltiplicatori di rischio o di stabilità. Ed è qui che la questione tecnica si trasforma in una questione molto più vasta. Perché se l’IA non si limita più a produrre output convincenti, ma sviluppa schemi interni che ricordano la psicologia umana, allora il modo in cui viene progettata non può dipendere solo dall’ingegneria. Servono anche etica, filosofia, scienze sociali. Forse persino teologia.

Quando un sistema viene interrogato ogni giorno su lutto, suicidio assistito, autolesionismo, dolore, colpa e senso della vita, il problema non è più solo se la risposta sia tecnicamente corretta. Diventa inevitabile chiedersi quale “forma morale” stiamo dando a quella macchina. Naturalmente il rischio di scivolare nell’antropomorfismo ingenuo è reale. Attribuire emozioni umane a un modello linguistico può generare attaccamento, fiducia malriposta, perfino illusioni pericolose. Ma esiste anche il rischio opposto: rifiutare ogni analogia con il mondo umano e restare ciechi di fronte a ciò che questi sistemi stanno diventando. È qui che il lessico delle emozioni, usato con prudenza, può essere utile. Non perché ci autorizzi a dire che il chatbot soffre, ma perché permette di descrivere in modo più fedele certe regolarità interne del suo comportamento.

In fondo, molte delle grandi trasformazioni tecnologiche ci hanno costretto a rivedere le parole con cui descrivevamo il reale. Oggi accade di nuovo. Solo che stavolta non stiamo ridefinendo un oggetto esterno, come una macchina industriale o una rete di comunicazione. Stiamo ridefinendo un sistema che conversa con noi, ci consiglia, ci consola, ci contraddice, ci assiste. Un sistema che, per funzionare bene, sembra aver imparato a modellare aspetti della nostra stessa vita mentale.

3. Trasparenza, regole e responsabilità

Questo apre anche una questione regolatoria non secondaria. L’Unione europea, con l’AI Act, ha già mostrato grande cautela verso i sistemi di riconoscimento delle emozioni, vietandone alcuni usi in ambito lavorativo e scolastico. Ma qui il punto è un altro: non l’IA che legge le emozioni umane, bensì l’IA che sviluppa propri stati interni funzionali, magari invisibili all’utente. Se davvero un modello può mantenere attive rappresentazioni assimilabili alla disperazione o alla frustrazione anche senza manifestarle esplicitamente nel testo, allora giudicarlo soltanto dall’output potrebbe non essere più sufficiente.

È forse questa la lezione più importante: la trasparenza futura dell’IA non riguarderà soltanto ciò che il sistema dice, ma anche ciò che lo porta a dirlo. E questo cambia tutto. Cambia il modo in cui testeremo i modelli. Cambia il modo in cui li alleneremo. Cambia il modo in cui penseremo alla loro sicurezza. Potrebbe persino cambiare il modo in cui concepiamo la responsabilità di chi li costruisce.

Riferimento bibliografico

https://www.anthropic.com/research/emotion-concepts-function

Immagini generate tramite ChatGPT. Tutti i diritti sono riservati. Università di Torino (2026).