Nel mondo dell’intelligenza artificiale, una nuova ricerca promette di rivoluzionare il modo in cui i modelli di linguaggio gestiscono il ragionamento complesso. Un team di ricercatori, guidato da Boshi Wang e Xiang Yue, ha pubblicato uno studio innovativo che esplora le capacità dei transformers di apprendere e ragionare implicitamente su conoscenze parametriche. Questo studio, intitolato “Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization“, potrebbe segnare una svolta significativa nel campo del Natural Language Processing.
L’obiettivo principale di Wang, Yue, Su e Sun era capire se i transformers potessero imparare a ragionare implicitamente, un’abilità che anche i modelli di linguaggio più avanzati faticano a padroneggiare. Concentrandosi su due tipi di ragionamento rappresentativi, composizione e confronto, i ricercatori hanno scoperto che i transformers possono effettivamente apprendere il ragionamento implicito, ma solo attraverso un processo noto come “grokking”.
Nel contesto di questo studio, il grokking si riferisce a un periodo di allenamento esteso ben oltre l’overfitting. Durante questo periodo, il modello continua a migliorare la sua capacità di generalizzare, rendendo possibile l’acquisizione di abilità di ragionamento implicito. Tuttavia, i risultati variano a seconda del tipo di ragionamento.
Per arrivare a queste conclusioni, il team ha creato dataset sintetici, allenando i transformers da zero e valutando la loro capacità di generalizzare su nuovi fatti. Questo approccio ha permesso loro di controllare i dati di addestramento e condurre valutazioni accurate, cosa che sarebbe stata difficile con i classici modelli di linguaggio.
I risultati sono stati rivelatori. I transformers possono apprendere il ragionamento implicito, ma necessitano di un allenamento esteso per raggiungere questo obiettivo. Inoltre, la velocità di miglioramento nella generalizzazione è correlata al rapporto tra fatti dedotti e fatti atomici nel set di addestramento, suggerendo che non è la quantità di dati di addestramento a essere critica, ma la loro distribuzione.
Le implicazioni di questi risultati sono profonde. I ricercatori suggeriscono che per sbloccare ulteriormente le capacità di generalizzazione dei transformers, sarà necessario migliorare i meccanismi di condivisione della memoria tra i layer.
Questo studio non solo fornisce nuove intuizioni sul funzionamento interno dei transformers, ma apre anche la strada a sviluppi futuri che potrebbero permettere ai modelli di linguaggio di superare le loro attuali limitazioni nel ragionamento implicito, portandoci un passo più vicini a macchine che possono ragionare come esseri umani.
Leggi l’articolo completo su ArXiv al seguente link:

Immagine in copertina generata tramite DALL-E-3.

