Negli ultimi anni i chatbot sono diventati così convincenti da farci dimenticare la meccanica che li muove: non capiscono davvero, generano semplicemente la parola successiva più plausibile. Eppure li trattiamo come interlocutori, chiedendo loro consigli su questioni personali, mediche, persino esistenziali. E ogni volta l’IA risponde a tono, dando l’impressione di prendersi cura di noi.
Questa è la contraddizione dell’intelligenza artificiale generativa: non ha una personalità, ma sembra averla. E quella parvenza di coerenza non è un dettaglio trascurabile, perché un modello che scivola nel ruolo sbagliato può diventare complice, seduttivo o pericolosamente irresponsabile. A questo proposito, una ricerca recente di Anthropic arriva a una conclusione sorprendente: la personalità di un modello è rappresentata da una specifica direzione matematica interna, chiamata “asse dell’assistente“, definendo quando il sistema fornisce risposte professionali e quando invece deriva verso comportamenti problematici.
L’ancoraggio a quest’asse, tuttavia, è estremamente fragile. Ad esempio, durante conversazioni lunghe o emotivamente intense, l’attività neurale può allontanarsi dal riferimento sicuro e il modello assume ruoli diversi, meno prevedibili e inappropriati, dando origine a quello che i ricercatori chiamano “deriva di ruolo“. Tuttavia, quest’ultima è ora in parte misurabile, come suggerisce Anthropic, intervenendo direttamente sui meccanismi interni a livello matematico quando il modello sta per superare i limiti.
Leggi l’articolo completo L’IA ha una personalità misurabile. E questa è una buona notizia su la Repubblica.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (27/05/2025).

