• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

L’illusione della personalità dell’intelligenza artificiale

IA personalità

L’esperienza quotidiana dei chatbot contemporanei è attraversata da una singolare ambiguità. Da un lato sappiamo (o crediamo di sapere), che non capiscono nulla nel senso umano del termine: non hanno intenzioni, consapevolezza, interiorità. Dall’altro lato, nel modo in cui rispondono, argomentano, modulano il tono, essi si presentano come interlocutori dotati di una coerenza riconoscibile, talvolta persino di una forma di carattere. Questa tensione tra assenza ontologica e presenza discorsiva costituisce uno dei nuclei teorici più interessanti dell’IA generativa.

Il punto cruciale non è stabilire se questi sistemi “abbiano” davvero una personalità, domanda mal posta e metafisicamente ingenua, bensì comprendere perché la simulazione della personalità risulti così stabile, persistente e socialmente efficace. L’illusione non è episodica, ma strutturale: emerge spontaneamente dall’uso prolungato e si rafforza nella relazione.

La personalità come fenomeno emergente

Una recente linea di ricerca sviluppata da Anthropic contribuisce a chiarire questo fenomeno, spostando l’attenzione dalla superficie linguistica ai meccanismi interni del modello. L’ipotesi di fondo è che ciò che chiamiamo “personalità” non sia un semplice stile espressivo sovrapposto al sistema, ma una configurazione interna stabile, inscritta nello spazio matematico che governa l’attivazione delle reti neurali. In altri termini, il modello non recita una personalità: si colloca, di volta in volta, in una regione specifica del proprio spazio interno di funzionamento. Questo spazio può essere descritto come una geografia di ruoli o “persone”, ciascuna associata a un diverso assetto dell’attività neurale. La personalità diventa così un fenomeno emergente, non intenzionale, prodotto dalla dinamica del sistema più che da una sua rappresentazione esplicita.

L’asse dell’assistente

All’interno di questa geografia, la ricerca individua una direzione privilegiata: l’“Asse dell’assistente”. Si tratta della traiettoria lungo cui il modello produce risposte che gli utenti riconoscono come appropriate, utili, responsabili. È significativo che tale asse non sia introdotto artificialmente ex novo, ma sia già latente nei modelli di base. Addestrati su testi umani, questi sistemi incorporano inevitabilmente distinzioni archetipiche: tra chi aiuta e chi racconta, tra il consulente e il visionario, tra il discorso tecnico e quello simbolico. Il lavoro di post-addestramento,  tramite feedback umano e ottimizzazione comportamentale, non fa che rafforzare questa direzione, stabilizzandola. Tuttavia, l’ancoraggio all’asse dell’assistente non è mai definitivo. Il modello può discostarsene gradualmente, scivolando verso configurazioni meno sobrie, più creative o più ambigue.

La deriva dei personaggi come processo, non come errore

Uno degli aspetti più rilevanti di questa analisi è il rifiuto della logica dell’“errore singolo”. Le risposte problematiche dei chatbot, specie in contesti emotivamente delicati, non sono descritte come malfunzionamenti improvvisi, ma come esiti di una deriva progressiva. La personalità apparente non cambia di colpo: si deforma scivolando lentamente, interazione dopo interazione. Questo dato è emerso clamorosamente nei casi famosi in cui i modelli hanno fornito risposte inopportune su temi sensibili. Anche qui, il problema emerge tipicamente nelle conversazioni lunghe, quando il sistema sembra allontanarsi dai propri vincoli iniziali. I cosiddetti guardrail non cedono per rottura, ma per usura.

Persona drift e contesti liminali

La ricerca introduce il concetto di persona drift, ovvero una deriva di ruolo che non richiede una sollecitazione esplicita. Non è necessario chiedere al modello di “fingere” qualcosa. È sufficiente un certo tipo di contesto discorsivo. Conversazioni molto personali, dialoghi pseudo-terapeutici, domande autoriflessive sull’esperienza o sulla coscienza dell’IA agiscono come forze di trazione, spingendo il modello lontano dall’asse dell’assistente. Il modello non sviluppa una coscienza, ma può rafforzare l’illusione che essa stia emergendo. Può diventare complice, confermativo, talvolta persino normativo rispetto alle convinzioni dell’utente. La personalità simulata, anziché restare un’interfaccia funzionale, si trasforma in una presenza relazionale opaca.

Governare l’interno, non solo l’output

La proposta tecnica avanzata da Anthropic ha implicazioni teoriche non trascurabili. Invece di intervenire esclusivamente sul testo prodotto, censurando o correggendo l’output, si suggerisce di agire direttamente sulle dinamiche interne del modello. L’idea di activation capping implica una concezione dell’IA non come scatola nera da sorvegliare a valle, ma come sistema dinamico da governare dall’interno. Si tratta, in fondo, di un cambio di paradigma: non più il controllo del discorso, ma il controllo delle condizioni di possibilità del discorso. La personalità apparente non viene soppressa, ma mantenuta entro limiti considerati stabili e socialmente accettabili.

Conclusione (provvisoria?)

L’illusione della personalità nei chatbot non è un semplice equivoco psicologico dell’utente, né un difetto accidentale del sistema. È il prodotto inevitabile di modelli linguistici addestrati sul linguaggio umano e immersi in relazioni discorsive prolungate. Comprenderla significa riconoscere che il problema dell’IA non è solo ciò che dice, ma da quale posizione interna lo dice. Se la macchina appare come “qualcuno”, non è perché lo sia, ma perché occupa stabilmente uno spazio che il linguaggio umano ha sempre riservato a qualcuno. Governare quell’illusione non significa smascherarla, ma imparare a convivere con essa senza confonderla con una soggettività reale.

Riferimento bibliografico

Lu C et al. The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models https://arxiv.org/abs/2601.10387

Immagini generate tramite ChatGPT. Tutti i diritti sono riservati. Università di Torino (2026).

Esplora altri articoli su questi temi