Dal linguaggio naturale al pensiero continuo: il nuovo paradigma per migliorare il ragionamento gli LLM
I Large Language Models (LLM) stanno rivoluzionando il modo in cui interagiamo con l’intelligenza artificiale, ma presentano ancora dei limiti quando devono ragionare per risolvere problemi complessi. La ricerca condotta da Meta AI e UC San Diego propone un nuovo paradigma chiamato Coconut (Chain of Continuous Thought) che permette ai modelli di ragionare in uno spazio latente continuo invece che essere vincolati al linguaggio naturale.
Il problema del ragionamento tramite linguaggio
Attualmente, gli LLM utilizzano il linguaggio naturale per esprimere i loro processi di ragionamento attraverso un approccio chiamato “chain-of-thought” (CoT). Questo metodo presenta però alcune limitazioni:
- Molti token servono solo per mantenere la coerenza testuale e non sono essenziali per il ragionamento
- Alcuni token critici richiedono una pianificazione complessa e pongono grandi sfide ai modelli
- Il linguaggio naturale potrebbe non essere ottimale per il ragionamento, come suggerito anche da studi sul cervello umano
“Gli studi di neuroimaging hanno costantemente dimostrato che la rete del linguaggio – un insieme di regioni cerebrali responsabili della comprensione e produzione del linguaggio – rimane in gran parte inattiva durante vari compiti di ragionamento” – citazione dallo studio

Come funziona Coconut
Il nuovo paradigma proposto si basa su una semplice ma efficace modifica al processo tradizionale:
- Invece di decodificare lo stato nascosto in token linguistici
- Lo stato viene utilizzato direttamente come embedding di input per il token successivo
- Il modello può così ragionare in uno spazio continuo senza vincoli linguistici
- Il sistema può essere ottimizzato end-to-end tramite discesa del gradiente
Risultati sorprendenti
I test hanno dimostrato che Coconut porta a pattern di ragionamento emergenti avanzati:
- Il pensiero continuo può codificare più passaggi di ragionamento alternativi simultaneamente
- Permette al modello di eseguire una ricerca in ampiezza (BFS) per risolvere i problemi
- Supera i metodi tradizionali in compiti di ragionamento logico che richiedono backtracking
- Utilizza meno token durante l’inferenza
Impatto e prospettive future
Questa ricerca apre nuove prospettive per il miglioramento delle capacità di ragionamento dell’IA:
- Dimostra che è possibile liberare gli LLM dai vincoli del linguaggio naturale
- Suggerisce che il ragionamento in uno spazio latente potrebbe essere più efficace
- Apre la strada a nuovi approcci per risolvere problemi complessi
Immagine di copertina generata tramite Flux.
Leggi l’articolo completo su ArXiv:


