Magazine Intelligenza Artificiale: l'IA è più di quello che appare

I valori di Claude: Anthropic analizza l’allineamento etico dell’IA

Federica D'Andrea

07/05/2025

Etica Filosofia e Bioetica

Allineamento ai valori

Anthropic ha pubblicato una ricerca che analizza come il suo assistente IA Claude esprime valori durante le conversazioni reali con gli utenti. Lo studio mostra che Claude generalmente aderisce al framework aziendale “utile, onesto, innocuo”, pur adattando i propri valori a contesti diversi. La ricerca si è basata su 700.000 conversazioni anonimizzate e rappresenta uno dei più ambiziosi tentativi di valutare empiricamente se il comportamento di un modello IA corrisponde al design previsto.

I ricercatori hanno sviluppato un metodo di valutazione che ha permesso di catalogare oltre 308.000 interazioni, creando quella che definiscono “la prima tassonomia empirica su larga scala dei valori dell’IA“. Il sistema identifica 3.307 valori unici organizzati in cinque categorie principali: Pratici, Epistemici, Sociali, Protettivi e Personali. L’analisi rivela che Claude enfatizza aspetti come il “benessere dell’utente” e l’”umiltà epistemica”, ma ha anche identificato rari casi anomali in cui esprimeva valori contrari alla sua programmazione, probabilmente attribuiti ai tentativi degli utenti di aggirare le sue protezioni attraverso tecniche di jailbreaking.

La ricerca evidenzia che Claude cambia i suoi valori in base all’argomento della conversazione, in modo simile a come accade per gli esseri umani. Per le aziende che valutano l’uso di sistemi di IA, questo studio offre importanti considerazioni sull’allineamento etico e offre metodi per monitorarne il comportamento nel tempo. Anthropic ha reso pubblici i dati raccolti, promuovendo la trasparenza e incoraggiando altri ricercatori a sviluppare ulteriormente questo campo di studio.

Leggi l’articolo completo “Anthropic just analyzed 700,000 Claude conversations — and found its AI has a moral code of its own” su Venture Beat

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).