Comprensione del linguaggio negli LLM tra astrazione e memorizzazione

Marta Baronio

21/02/2025

Melanie Mitchell, professoressa al Santa Fe Institute, nel suo articolo LLMs and World Models, Part 1, analizza la fragilità dell’IA nei primi sistemi di apprendimento automatico, che utilizzavano scorciatoie euristiche piuttosto che comprendere concetti astratti. Problemi simili sono stati osservati nei language models e nei sistemi di apprendimento con rinforzo profondo, evidenziando la dipendenza da schemi superficiali nei dati di addestramento.

Con l’avvento degli LLM (Large Laguage Models), si è aperto un dibattito su come questi sistemi raggiungano elevate prestazioni. Alcuni ricercatori, come Ilya Sutskever di OpenAI, sostengono che gli LLM sviluppano world models astratti e causali. Altri, invece, tra cui Yann LeCun di Meta, ritengono che si limitino a un recupero approssimativo dai dati di addestramento. Un sondaggio del 2022 ha mostrato una divisione tra i ricercatori di PNL riguardo alla capacità degli LLM di comprendere il linguaggio naturale.

Il concetto di world models è esplorato attraverso diverse definizioni nell’ambito dell’IA, enfatizzando la capacità di rappresentare causalità e strutture astratte in modo algoritmicamente efficiente. Infatti, in linea generale è possibile definire i world models quali rappresentazioni mentali che catturano le strutture causali e consentono di fare previsioni, pianificare azioni e rispondere a domande controfattuali (“cosa accadrebbe se…?”). Esistono diversi tipi di world models, che variano per complessità e capacità di generalizzazione. Quelli più semplici, come le tabelle di consultazione o le mappe statiche, si limitano a rispondere a domande specifiche sui dati memorizzati. Modelli più complessi, come i simulatori, possono rappresentare dinamiche causali e fare previsioni su scenari ipotetici.

Il dibattito sugli LLM si concentra sulla natura dei loro modelli interni: alcuni ritengono che abbiano sviluppato rappresentazioni simili a mappe o a modelli dinamici limitati, mentre altri sostengono che non abbiano vere rappresentazioni causali del mondo, ma solo associazioni statistiche avanzate. La discussione rimane aperta e dipende dalle definizioni di “comprensione” e world models.

Leggi l’articolo completo: LLMs and World Models, Part 1 su aiguide.substack.com.

Immagine generata tramite DALL-E 3.