Un team di ricercatori della Tsinghua University ha sviluppato un innovativo approccio per migliorare le capacità di ragionamento delle intelligenze artificiali. Il framework, denominato “Diagram of Thought” (DoT), rappresenta un significativo passo avanti nel modo in cui i Large Language Models (LLM) elaborano ragionamenti complessi.
Pubblicato a settembre 2024, lo studio introduce un metodo che permette ai modelli linguistici di costruire ragionamenti attraverso una struttura a grafo aciclico diretto (DAG), superando i limiti delle precedenti architetture lineari o ad albero.
“Il nostro approccio simula più fedelmente il processo di ragionamento umano“, spiega Yifan Zhang, primo autore dello studio. “Non procediamo mai in modo puramente lineare quando ragioniamo: rivisitiamo concetti, raffiniamo idee, verifichiamo conclusioni. DoT permette alle AI di fare lo stesso“.
La vera innovazione del framework risiede nella sua capacità di gestire l’intero processo all’interno di un singolo modello linguistico. Il sistema assume tre ruoli distinti durante il ragionamento:
- Un “proposer” che genera le proposizioni iniziali
- Un “critic” che valuta e critica le proposizioni
- Un “summarizer” che sintetizza il ragionamento finale
Questo approccio multi-ruolo permette al modello di auto-correggersi e migliorare le proprie deduzioni in modo iterativo, proprio come farebbe un essere umano quando affronta un problema complesso.
Lo studio fornisce anche una solida base matematica al framework, utilizzando la teoria dei topos per garantire la coerenza logica del processo di ragionamento. “Questa formalizzazione matematica“, sottolinea il professor Andrew Chi-Chih Yao, co-autore dello studio, “non è solo un esercizio teorico, ma garantisce che il sistema produca sempre deduzioni logicamente valide“.
I ricercatori hanno dimostrato l’efficacia del framework su diversi tipi di problemi, dalla matematica al ragionamento astratto. Un esempio pratico mostra come il sistema affronti questioni apparentemente semplici come confrontare numeri o contare lettere in una parola, ma attraverso un processo di ragionamento esplicito e verificabile.
La novità più significativa rispetto agli approcci precedenti è l’eliminazione della necessità di utilizzare multiple AI o meccanismi di controllo esterni. Tutto il processo avviene all’interno di un unico modello, semplificando notevolmente l’implementazione pratica e riducendo i costi computazionali.
Il codice del progetto è stato reso pubblico su GitHub, permettendo alla comunità scientifica di sperimentare e costruire su questa base. Questa apertura potrebbe accelerare ulteriormente lo sviluppo di AI con capacità di ragionamento sempre più sofisticate.
Leggi l’articolo completo su ArXiV.

