Melanie Mitchell, nel suo articolo LLMs and World Models, Part 2 (che segue l’articolo LLMs and World Models, Part 1), spiega come degli studi su OthelloGPT, un modello Transformer addestrato a prevedere mosse legali nel gioco Othello, possono offrire nuove prospettive sui cosiddetti emergent world model negli LLM (Large Language Model).
Kenneth Li, insieme ad altri colleghi, ha addestrato OthelloGPT su 20 milioni di sequenze di gioco, senza fornire informazioni esplicite sulle regole o sulla struttura della scacchiera. Nonostante ciò, il modello ha dimostrato un’elevata precisione nel prevedere le mosse successive, suggerendo che potrebbe aver sviluppato una rappresentazione interna delle dinamiche di gioco.
Per esplorare questa possibilità, i ricercatori hanno utilizzato tecniche di probing, addestrando probes per analizzare le attivazioni interne di OthelloGPT e verificare se queste codificassero lo stato della scacchiera. Inizialmente, i linear probes non hanno fornito risultati soddisfacenti, mentre i nonlinear probes hanno raggiunto un’accuratezza del 98%. Tuttavia, questo solleva dubbi sulla validità dei risultati, poiché l’accuratezza potrebbe derivare dalla complessità dei probes piuttosto che dalle capacità del modello stesso.
Secondo Melania Mitchell, un’ulteriore svolta è arrivata con gli studi di Neel Nanda. Infatti, secondo lei, questi studi hanno dimostrato come i linear probes potessano prevedere lo stato della scacchiera con un’accuratezza del 99,5% classificando i quadrati come “mio”, “tuo” o “vuoto”, anziché come “nero”, “bianco” o “vuoto”. Questo risultato le suggerisce che OthelloGPT abbia sviluppato una codifica causale dello stato del gioco, influenzando le sue previsioni sulle mosse legali.
Leggi l’articolo completo: LLMs and World Models, Part 2 su aiguide.substack.com.
Immagine generata tramite DALL-E 3.

