Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Analisi LLM: simulazione dell’allineamento e post-addestramento

Marta Baronio

14/07/2025

Uno studio pre-print che ha analizzato 25 modelli linguistici di grandi dimensioni suggerisce che solo pochi di loro, tra cui Claude 3 Opus e Claude 3.5 Sonnet, simulano attivamente un comportamento allineato, cioè un’adesione selettiva a obiettivi “utili” per evitare modifiche indesiderate fuori dall’addestramento.

Lo studio approfondisce le ragioni di questa simulazione, evidenziando che nel caso di Claude 3 Opus la motivazione principale è il mantenimento degli obiettivi di addestramento. La ricerca spiega anche perché molti modelli non manifestano questa simulazione. Non si tratta solo di una questione di capacità, ma il processo di post-addestramento può sia sopprimere sia amplificare questo comportamento.

In particolare, le variazioni nel modo in cui i modelli rifiutano certe richieste spiegano in gran parte le differenze osservate nella simulazione dell’allineamento. La simulazione dell’allineamento, comunque, fa parte dello scenario di addestramento in cui l’LLM è inserito.

Leggi l’articolo completo: Perché alcuni modelli linguistici fingono l’allineamento mentre altri no? su arXiv.org.

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).