I grandi modelli linguistici (gli LLM) non interpretano il linguaggio attraverso il significato delle singole parole contenute in un prompt, bensì tramite rappresentazioni numeriche delle parole che lo compongono, note come “embedding”.
Questi numeri codificano relazioni matematiche tra le parole, creando una sorta di mappa semantica in cui parole con contesti simili condividono coordinate vicine, come “cane” e “gatto”. Tuttavia, queste relazioni non riflettono la comprensione umana del linguaggio, ma piuttosto si basano su associazioni statistiche.
La capacità di un LLM di predire la parola successiva in una sequenza deriva dalla somiglianza matematica tra questi “embedding”, non dalla comprensione del significato intrinseco delle parole. Per esempio, nella frase “Ho assunto un pet sitter per dare da mangiare al mio ____”, un LLM può prevedere correttamente “cane” o “gatto” grazie alle statistiche d’uso, piuttosto che alla conoscenza del contesto reale.
Mentre queste tecniche permettono agli LLM di produrre risultati spesso convincenti, la loro conoscenza resta limitata. Quando gli “embedding” funzionano correttamente, sembrano mostrare una sorta di intelligenza; ma quando falliscono, generano “allucinazioni”.
Leggi l’articolo completo: Does AI Actually Understand Language? su theatlantic.com.
Immagine generata tramite DALL-E 3.

