L'IA "ragiona" davvero? Un nuovo studio svela i limiti dei modelli linguistici più avanzati

Un recente studio condotto da ricercatori delle Università di Yale e Princeton ha messo sotto la lente d’ingrandimento o1, l’ultimo modello linguistico di OpenAI, rivelando risultati sorprendenti sulla natura del “ragionamento” nelle intelligenze artificiali.

La ricerca, pubblicata nell’ottobre 2024, ha analizzato se i modelli linguistici, anche quando ottimizzati specificamente per il ragionamento come o1, mantengano ancora tracce del loro “DNA originale” – la previsione della parola successiva, tecnicamente chiamata “autoregressione”.

“Abbiamo scoperto che o1, nonostante rappresenti un significativo passo avanti rispetto ai modelli precedenti, continua a mostrare alcune limitazioni tipiche dell’autoregressione”, spiega Tom McCoy, primo autore dello studio e ricercatore presso il Dipartimento di Linguistica dell’Università di Yale.

I ricercatori hanno sottoposto o1 a una serie di test, confrontandolo con altri modelli come GPT-4, Claude 3 e Gemini 1.0. Tra gli esperimenti più significativi, hanno testato la capacità del sistema di:

Decodificare messaggi cifrati
Interpretare il “pig latin” (un gioco linguistico in inglese)
Invertire liste di parole
Creare acronimi

I risultati hanno evidenziato che o1 ottiene prestazioni nettamente superiori rispetto ai suoi predecessori, specialmente in varianti rare o inusuali dei compiti assegnati. Tuttavia, il modello continua a mostrare una chiara preferenza per le risposte più “probabili” dal punto di vista statistico, proprio come i suoi predecessori.

“È come se il sistema, pur essendo più sofisticato, conservasse ancora una predilezione innata per le sequenze di parole che incontra più frequentemente durante l’addestramento”, sottolinea Matthew Hardy, coautore dello studio.

Un aspetto particolarmente interessante emerso dalla ricerca riguarda il numero di “token di pensiero” – unità di elaborazione interna – utilizzati dal sistema. o1 tende a utilizzare molti più token quando deve gestire casi meno comuni o probabili, suggerendo che questi richiedano uno “sforzo computazionale” maggiore.

Questi risultati hanno importanti implicazioni per il futuro dell’IA. Gli autori suggeriscono che per superare completamente queste limitazioni potrebbe essere necessario integrare componenti che non si basano su giudizi probabilistici, come moduli che eseguono direttamente codice Python.

Lo studio getta nuova luce sulla natura del ragionamento artificiale, suggerendo che anche i sistemi più avanzati mantengono tracce delle loro origini statistiche. Una scoperta che ci ricorda come, nonostante i progressi impressionanti nel campo dell’IA, siamo ancora lontani dal replicare completamente il ragionamento umano.

Immagine in copertina generata tramite Flux.

Leggi l’articolo completo su Arxiv al seguente link:

2410.01792

When a language model is optimized for reasoning, does it still show embers