Uno studio pre-print che ha analizzato 25 modelli linguistici di grandi dimensioni suggerisce che solo pochi di loro, tra cui Claude 3 Opus e Claude 3.5 Sonnet, simulano attivamente un comportamento allineato, cioè un’adesione selettiva a obiettivi “utili” per evitare modifiche indesiderate fuori dall’addestramento.
Lo studio approfondisce le ragioni di questa simulazione, evidenziando che nel caso di Claude 3 Opus la motivazione principale è il mantenimento degli obiettivi di addestramento. La ricerca spiega anche perché molti modelli non manifestano questa simulazione. Non si tratta solo di una questione di capacità, ma il processo di post-addestramento può sia sopprimere sia amplificare questo comportamento.
In particolare, le variazioni nel modo in cui i modelli rifiutano certe richieste spiegano in gran parte le differenze osservate nella simulazione dell’allineamento. La simulazione dell’allineamento, comunque, fa parte dello scenario di addestramento in cui l’LLM è inserito.
Leggi l’articolo completo: Perché alcuni modelli linguistici fingono l’allineamento mentre altri no? su arXiv.org.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

