I Large Language Models (LLM) come GPT e Gemini hanno dimostrato impressionanti capacità di ragionamento e di risposta alle domande, ma spesso producono allucinazioni, ovvero risposte false e infondate. Questo comportamento inaffidabile ostacola la loro adozione in diversi campi, creando problemi che vanno dalla fabbricazione di precedenti legali inesistenti alla diffusione di notizie false, fino a rappresentare un potenziale rischio per la vita umana in ambiti medici come la radiologia. I tentativi di incoraggiare la veridicità attraverso la supervisione o il rinforzo hanno avuto solo un successo parziale. I ricercatori necessitano di un metodo generale per rilevare le allucinazioni negli LLM, che funzioni anche con domande nuove e mai viste prima, per le quali gli esseri umani potrebbero non conoscere la risposta.
L’entropia semantica per rilevare le allucinazioni
In un recente studio pubblicato su Nature, Sebastian Farquhar e colleghi dell’Università di Oxford hanno sviluppato metodi innovativi basati sulla statistica, proponendo stimatori di incertezza basati sull’entropia per gli LLM al fine di rilevare un sottoinsieme di allucinazioni, le cosiddette confabulazioni, che sono generazioni arbitrarie e scorrette. Il loro metodo si basa sul principio che un’idea può essere espressa in molti modi, calcolando l’incertezza a livello di significato piuttosto che di sequenze specifiche di parole. Questo approccio funziona su diversi dataset e compiti senza una conoscenza a priori del task, non richiede dati specifici per il compito e si generalizza in modo robusto a nuovi task mai visti prima. Rilevando quando un prompt è probabile che produca una confabulazione, il metodo aiuta gli utenti a capire quando devono prestare particolare attenzione agli output degli LLM e apre nuove possibilità di utilizzo che altrimenti sarebbero precluse dalla loro inaffidabilità.
L’entropia semantica
Il metodo, denominato entropia semantica, stima l’entropia della distribuzione dei significati delle risposte alle domande, per quanto possibile, piuttosto che la distribuzione sui “token” (parole o parti di parole) che gli LLM rappresentano nativamente. Intuitivamente, il metodo funziona campionando diverse possibili risposte a ciascuna domanda e raggruppandole algoritmicamente in cluster di risposte con significati simili. La similarità viene determinata sulla base del fatto che le risposte nello stesso cluster si implicano reciprocamente: se la frase A implica che la frase B è vera e viceversa, allora vengono considerate appartenenti allo stesso cluster semantico.
Risultati e impatto
Gli autori dimostrano che l’entropia semantica rileva efficacemente le confabulazioni su diversi dataset di question answering e problemi matematici testuali, senza conoscenze pregresse sul dominio. Il metodo supera significativamente le baseline, tra cui una regressione logistica addestrata sulle unità nascoste finali dell’LLM per predire se il modello avrebbe risposto correttamente. Sebbene questo approccio supervisionato funzioni bene nella distribuzione di addestramento, fallisce quando la distribuzione delle domande è diversa, che è il caso comune nel mondo reale in cui si verifica uno shift di distribuzione tra addestramento e applicazione.
I risultati suggeriscono che le confabulazioni contribuiscono sostanzialmente alle risposte errate fornite dai modelli linguistici. Utilizzando l’entropia semantica, molte risposte errate del modello possono essere previste e l’accuratezza complessiva può essere migliorata evitando di rispondere alle domande su cui il modello è incerto. Gli autori mostrano anche come il metodo possa essere applicato a generazioni più lunghe, come intere biografie, scomponendo automaticamente il testo in affermazioni fattuali e ricostruendo le domande che potrebbero aver prodotto tali affermazioni.
Questo studio rappresenta un importante passo avanti nella comprensione e nel miglioramento dell’affidabilità dei Large Language Models, aprendo la strada a un loro utilizzo più sicuro e efficace in una vasta gamma di applicazioni.
Leggi l’articolo completo: Detecting hallucinations in large language models using semantic entropy

