Tutto quello che i linguisti computazionali avrebbero voluto sapere sul linguaggio ma non hanno avuto il coraggio di chiedere

Come possiamo rappresentare con il linguaggio che è lineare un mondo più complesso?

Vi siete mai chiesti come faccia il linguaggio umano, pur essendo solo una sequenza lineare di simboli, a rappresentare un mondo composto da complessi accadimenti naturali e sociali, incluse le sofisticate interazioni umane, tutti fenomeni ad alta dimensionalità? Vediamo se e come a questa domanda sono riusciti a rispondere i linguisti computazionali che usano l’intelligenza artificiale per studiare il linguaggio e insegnarlo alle macchine.

I limiti dell’AI simbolica nell’analisi del linguaggio naturale

Negli ultimi sessant’anni abbiamo provato a creare sistemi artificiali che fossero in grado di “comprendere” il linguaggio umano e di “parlare” con noi e come noi: nonostante i grandi progressi scientifici, i risultati pratici però sono stati minori delle aspettative. In un primo momento, abbiamo provato a modellare il linguaggio con grammatiche formali che codificano le regole di composizione di una frase. Regole che per semplicità hanno un carattere locale (ad es., mettono assieme articolo e nome, con in mezzo, opzionalmente, uno o più aggettivi per formare un sintagma nominale da comporre poi con un verbo, ecc.). Regole così semplici da essere quasi sempre addirittura «libere dal contesto» – per usare la definizione di Noam Chomsky, uno dei padri della linguistica computazionale, inventore delle grammatiche formali.

Per modellare il significato di una frase, abbiamo introdotto formalismi di rappresentazione della conoscenza, come le reti semantiche e le ontologie formali, che però hanno cristallizzato la semantica del linguaggio in concetti di geometrica precisione (in contrasto con quanto ci dicevano già dagli anni ‘70 scienziati cognitivi come Eleanor Rosch e George Lakoff: i concetti hanno confini molto imprecisi, sono difficili da formalizzare con una formula della logica). Ma come si usa dire “la guerra si fa con i soldati che si hanno”: all’epoca non c’erano altri strumenti per raggiungere l’obiettivo, e comunque queste ricerche hanno portato molti avanzamenti e gettato le basi per i progressi successivi.

Dalle grammatiche alla statistica

Infatti, capita la difficoltà di procedere in questo modo troppo rigido, noi linguisti computazionali, a fine secolo, abbiamo aggiunto modelli statistici del linguaggio per introdurre più flessibilità: abbiamo costruito modelli del linguaggio basati sulle frequenze di co-occorrenza delle parole: bigrammi, trigrammi, …, n-grammi. Ad es., «io vedo» è una coppia di parole più frequente dell’improbabile bigramma «io casa», e quindi una frase che usi la seconda espressione probabilmente non è corretta. Ma anche con questa tecnica si rimane in un approccio locale, fermi all’interno di una frase.

I modelli statistici hanno rappresentato un passo avanti importante anche verso la capacità di gestire grandi quantità di dati linguistici in modo non solo più flessibile, ma anche più scalabile. Questi modelli hanno permesso di automatizzare l’estrazione di conoscenze linguistiche, rendendo possibile l’analisi di corpora di dimensioni notevoli che altrimenti sarebbero stati impraticabili da trattare costruendo manualmente grammatiche, lessici, ontologie, ecc. Così facendo, però, si è rinunciato ad una nozione di significato più profonda, ancorché più rigida, riducendo la semantica alla co-collocazione fra parole (distributional semantics): «gatto» e «micio» hanno lo stesso significato non perché si riferiscono entrambi ad una specie di simpatico felino nel mondo reale, ma perché compaiono spessissimo in frasi simili.

Con queste tecnologie, tuttavia, siamo al più arrivati a creare assistenti vocali, come Alexa e Siri, con le loro frustranti conversazioni. Un risultato così limitato è anche dovuto al fatto di non essere riusciti a dare una risposta alla domanda – con cui abbiamo iniziato questo articolo – riguardo alla capacità del linguaggio, apparentemente lineare, di rappresentare la complessità del mondo.

La svolta dei large language model

Poi il 30 novembre 2022 è arrivata una nuova generazione di modelli probabilistici, basati su nuove tecniche di apprendimento automatico (i cosiddetti transformer, le reti neurali trasformative): ChatGPT, e di rincorsa tutti gli altri large language model (LLM), come LLama, Claude, Gemini, Mistral, Minerva, Llamantino, Ernie, Pangu, Wudao, ecc. Si tratta di modelli che hanno imparato a “parlare” da soli, quasi come un essere umano, senza che nessuno gli abbia “spiegato cosa siano” (o per meglio dire “nessuno li abbia programmati codificando”) le regole grammaticali, i concetti che costituiscono il significato delle parole, le strutture argomentative, le intenzioni comunicative e neanche come esprimiamo le emozioni con l’intonazione di una frase.

Allo stesso tempo i LLM non “comprendono” alcunché: tutto quello che fanno è, dato il testo in input, restituire l’insieme di parole che ne costituisce la continuazione più probabile alla luce della conoscenza statistica imparata nella fase di apprendimento digerendo tutti i testi del Web in ogni lingua. Al contrario, l’apprendimento del linguaggio da parte degli esseri umani è ricco di interazioni sociali e contestuali, non necessita di enormi quantità di esempi (povertà dello stimolo) ed è molto rapido, caratteristiche che hanno portato Noam Chomsky a sostenere che la grammatica sia innata nella mente umana e base condivisa da tutti i linguaggi umani.

I LLM, però, hanno delle performance linguistiche eccezionali, generano risposte coerenti e contestualmente appropriate, che li hanno resi il principale successo commerciale dell’AI (dopo gli algoritmi di personalizzazione della pubblicità).

Cosa sanno i large language model che noi non sappiamo

Quale è il segreto del successo dei LLM nell’elaborare il linguaggio umano? Cosa hanno capito che noi linguisti computazionali non avevamo capito? Saranno in grado rispondere alla nostra domanda iniziale, o aiutarci a dare una risposta?

Ancora non lo sappiamo con esattezza, ma cominciano ad emergere degli indizi.

L’hybris cartesiana dei linguisti

I LLM possono essere uno strumento prezioso per studiare il linguaggio stesso. Questa affermazione non va equivocata: non vogliamo qui suggerire che studiando il funzionamento interno degli LLM riusciremo a capire qualcosa di più del linguaggio umano. Un tale approccio ci potrebbe fare ricadere circolarmente nel peccato originale, la fallacia iniziale “cartesiana” di noi linguisti, alla base della metodologia dei primi decenni di tentativi di analisi del linguaggio umano: la pretesa che con la nostra autocoscienza avremmo potuto accedere ai meccanismi della mente che sono alla base del linguaggio umano, definendo le regole della grammatica e il significato dei concetti con la logica. Per decenni un peccato originale di hybris ha portato la ricerca verso una strada (anche se l’unica percorribile) che ci ha fatto smarrire nel tentativo di comprendere il fenomeno linguaggio.

Guardare dentro i large language model

Vero è che oggi, diversamente che nel passato quando studiavamo la nostra mente e cervello, possiamo “aprire la scatola e mettere le mani dentro” i LLM. I ricercatori stanno cominciando a identificare quali pattern di attivazione di neuroni artificiali corrispondono ad una certa parola, e a modificare i pesi della rete neurale per stimolare o inibire una risposta in una certa direzione (come stanno facendo ad Anthropic sul loro LLM Claude^[1]). Purtroppo, analizzare e testare trilioni di parametri è probabilmente un compito troppo complesso per poter diventare una soluzione generale e, come vedremo più avanti in questo articolo, forse anche questa strada è fallace per principio e non per le limitazioni della tecnologia attuale, fallace allo stesso modo della pretesa di studiare come la mente umana comprenda il linguaggio con dei modelli locali come le grammatiche.

Accelleratori di particelle per i linguisti

Piuttosto, grazie all’utilizzo degli LLM, i linguisti oggi possono generare statistiche sulle frequenze con cui le parole possono comparire in un qualsiasi testo. Prima degli LLM si potevano fare solo approssimazioni (brutali, tipo sostituire una parola con la sua lunghezza per semplificare il problema). Oggi un LLM, per costruzione, dato come contesto un testo lungo anche un milione di parole, restituisce non solo la parola più probabile che costituisce la prosecuzione di un dato contesto, ma può darci la probabilità in quel contesto di tutte le parole del dizionario.

Come dire, i LLM diventano una specie di “acceleratore di particelle” per permettere ai linguisti, come ai fisici, di studiare una realtà invisibile ad occhio nudo (in questo caso invisibile non perché troppo piccola da vedere, ma perché troppo grande da abbracciare in un solo sguardo).

La frattalità del linguaggio

Usando gli LLM come strumenti di analisi, i linguisti stanno rafforzando la consapevolezza che il linguaggio umano ha proprietà particolari, ma fondamentali, che abbiamo ignorato per lungo tempo. Prima di tutto, e sorprendentemente, il linguaggio umano ha una natura frattale. I frattali sono geometrie complesse che mostrano una auto-similarità a diverse scale: se si guarda una parte di un frattale, si vedrà una figura simile alla figura più grande da cui è stata presa. I frattali sono figure geometriche speciali perché, pur essendo contenuti in uno spazio finito, possono avere un livello di dettaglio infinito. Un frattale può avere una “dimensione” che non è un numero intero. Ad esempio, una linea ha una dimensione di 1, un quadrato ha una dimensione di 2, ma una linea frattale può avere una dimensione frazionaria (come 1,5), riflettendo la sua complessità in una linea monodimensionale che riempie però una superficie intera ripetendosi all’infinito.

I frattali sono un fenomeno ben presente in natura, si pensi alla struttura degli alberi, delle foglie (ben evidente è la frattalità della struttura delle foglie di felce), dei cavolfiori, delle montagne, delle coste, dei fiocchi di neve, ecc. Ma hanno natura frattale anche i fenomeni sociali come il traffico, l’economia, la finanza, l’urbanizzazione, ecc.

Le dipendenze a lungo raggio nel linguaggio

La natura frattale del linguaggio non si riduce solo al fatto che le stesse proprietà (dipendenza, coerenza, strutturazione gerarchica) si ritrovano a scale diverse nel linguaggio (dal livello del testo, del paragrafo a quello della frase fino alle parole stesse), ma questa auto-similarità è affiancata anche dall’esistenza di correlazioni su scale arbitrariamente lunghe nei testi [2], fenomeno ancora largamente non compreso.

Le dipendenze a lungo raggio si riferiscono alla situazione in cui i punti dati in una serie temporale sono correlati per lunghi periodi. L’esistenza di una correlazione fra punti lontani significa che le osservazioni distanti nel tempo hanno ancora un’influenza significativa l’una sull’altra: le parole di una frase non sono solo correlate fra loro, ma sono correlate anche con altre strutture ad una scala più ampia, come il paragrafo che contiene la frase o l’intero testo in cui compare.

Il linguaggio, quindi, presenta due caratteristiche: frattalità e dipendenze a lungo raggio, che sempre troviamo nelle attività sociali (traffico, finanza, ecc.) e nel mondo naturale (anche il corpo umano ha caratteri frattali, e la dipartenza dal giusto livello di frattalità è associata a malattie). Questi fenomeni sono parte di sistemi complessi e caotici, e infatti i concetti di frattalità e dipendenza a lungo raggio hanno una stretta relazione con il concetto di sistemi complessi e caotici. Come abbiamo raccontato in questo articolo sulla relazione fra teoria del caos e l’IA, le tecnologie di deep learning – su cui si basano anche i LLM – paiono cogliere meglio la complessità di alcuni sistemi caotici, come i fenomeni meteorologici o medici, permettendo di fare previsioni migliori di quelle che riusciamo a fare con i nostri metodi approssimati.

Come misurare la frattalità del linguaggio

Ci sono diversi indici che ci segnalano e ci permettono di misurare le proprietà scalari del linguaggio umano che mostrano il suo carattere frattale, come la distribuzione statistica delle parole in un testo dettate dalla legge di Zipf^[3] e dalla legge di Heaps^[4]. Il rispetto di entrambe le leggi dimostra che il linguaggio non segue un pattern lineare semplice, ma piuttosto un comportamento complesso e ricco di dettagli, proprio come fanno i frattali.
Quando proviamo però a generare un testo con i metodi tradizionali basati sulla teoria dell’informazione o sul trattamento statistico del linguaggio naturale, approcci che si basano prevalentemente su metodi di correlazioni locali, a breve raggio, non troviamo traccia nel testo prodotto degli effetti delle leggi di Zipf e Heaps. Quindi stiamo producendo un testo degenerato, meno ricco di dettagli, diverso da quello prodotto dagli umani quando parlano.

Se si usa invece un modello neurale per generare un testo le due leggi valgono ancora nel testo prodotto. Questo vuol dire che i modelli basati su reti neurali (e fra questi i recenti LLM) riescono meglio a riprodurre il linguaggio come lo parliamo noi umani dei modelli che abbiamo costruito pensando di aver capito il funzionamento del linguaggio.

Usando come strumento gli LLM, i ricercatori^[5] sono riusciti a provare ulteriormente non solo che il linguaggio è auto-simile, mostrando complessità a tutti i livelli di granularità, senza una lunghezza di contesto caratteristica particolare, ma anche la presenza di dipendenze a lungo raggio, caratteri che sono cominciati ad emergere solo recentemente con le reti neurali ricorrenti (RNN) e LSTM^[6] che precedono tecnologicamente i LLM. E dimostrano anche che le dipendenze a breve termine nel linguaggio, come nei paragrafi, riflettono le dipendenze su scale più ampie, come interi documenti.

Come è possibile che funzionino i large language model

Allo stesso tempo, la dimostrazione dei caratteri frattali presenti nel linguaggio ci aiuta a fare luce su come riescano a funzionare i LLM, sistemi che rimangono ancora oggetti molto misteriosi, anche se costruiti grazie all’ingegno degli esseri umani. I LLM, infatti, “imparano” da soli sottoponendosi ad infiniti indovinelli di completamento di una frase a cui hanno tolto una parola, il cosiddetto meccanismo del next token prediction (predizione della parola successiva), e questo indovinello viene ripetuto su tutto il testo presente sul web che i LLM hanno scaricato e letto, in tutte le lingue.

Questa fase di apprendimento, però, permette alla fine ai LLM non solo di predire la prossima parola di una nuova frase mai vista prima, ma anche, dato un contesto formato da un testo lungo decine di migliaia di parole (fino ad un milione di parole in LLM come Gemini 1.5 pro di Google), di produrre in output un testo di migliaia di parole che è la continuazione più probabile del testo dato in input.

Dal contesto locale ad una visione a lungo raggio

I LLM, cioè, riescono a scalare quanto hanno appreso in un contesto locale, generalizzando le informazioni del training set, in modi che superano le semplici probabilità di una sequenza di parole, ad un contesto molto più ampio che non hanno considerato nella fase di apprendimento. Ma proprio perché il linguaggio è “auto-simile” a tutti i livelli, la conoscenza appresa a livello locale per fare previsioni sulla prossima parola ritorna utile al LLM anche ad un livello più ampio: l’auto-similarità implica che i modelli nel linguaggio a livello di paragrafo riflettano i modelli osservati a livello di testo intero.

Viceversa, poiché il linguaggio mostra fenomeni dettagliati e complessi ad ogni livello di granularità, non è sufficiente affidarsi solo al contesto locale di una frase per prevedere con correttezza il prossimo token. Ma i LLM riescono ad applicare i modelli da loro appresi a livello locale (la prossima parola) anche a livelli di granularità superiori; cioè, comprendono fenomeni di più alto livello, come la direzione dell’argomento e il contesto più ampio e l’intenzione del parlante. I LLM riescono a bilanciare tra contesti a breve e lungo termine, e potrebbe essere questa la ragione del loro successo: riescono a gestire la frattalità e complessità insita nel linguaggio, che è la precondizione per poter rappresentare un mondo ad alta dimensionalità e complesso. Abbiamo quindi trovato la risposta alla nostra domanda iniziale. Ma ci rimangono ancora due punti da affrontare per chiudere l’argomento.

E’ inutile guardare dentro i large language model

Perché non possiamo pensare di poter guardare dentro un LLM per cercare di studiare il linguaggio umano? Il primo motivo è che non abbiamo alcuna garanzia che i LLM “comprendano” il linguaggio nello stesso modo in cui lo comprendiamo noi: potrebbero stare solo “simulando” quanto facciamo, anche se con una perfezione stupefacente. Ma se anche potessimo provare che la loro “comprensione” avviene in maniera simile alla nostra, c’è un secondo motivo, di principio: è un errore metodologico pensare di studiare i LLM per estrarre finalmente un modello esplicito, un insieme di regole grammaticali e formule logiche per capire come funziona il linguaggio umano, come avrebbero voluto fare i linguisti computazionali fino a qualche decennio fa con la nostra mente. Il motivo di principio è che le stesse reti neurali profonde (deep neural network) – la tecnologia di apprendimento automatico che è alla base degli LLM – presentano analogie con i fenomeni frattali e complessi^[8]. E questo isomorfismo fra la macchina e il fenomeno che la macchina riproduce rende una illusione pensare di studiare la macchina per capire i fenomeni linguistici: il livello di complessità della macchina rimane lo stesso della nostra mente, analogo a quello del linguaggio e dei fenomeni che il linguaggio permette di descrivere: un livello di complessità sproporzionato rispetto ai nostri modelli espliciti basati su regole locali.

E la grammatica della mente?

In conclusione, rimane ancora la domanda: ma come facciamo, quindi, noi umani a comprendere un linguaggio che non è solo una sequenza lineare di parole (ancorché strutturata gerarchicamente in strutture grammaticali), ma rispecchia la frattalità, complessità e alta dimensionalità del mondo?

La risposta in realtà la sapevamo da tempo e forse noi linguisti computazionali dovremmo fare autocritica per aver creduto di potere affrontare un problema complesso come il linguaggio con degli strumenti analitici relativamente semplici e focalizzati sull’ambito locale della singola frase come le grammatiche, le reti semantiche, le ontologie e la logica formale, ma anche i modelli statistici basati su n-grammi.

È vero che per decenni non abbiamo avuto alternative. Anche solo utilizzare delle grammatiche più potenti e attente al contesto (context-sensitive nella categorizzazione di Noam Chomsky) era ai limiti della portata della capacità computazionale disponibile di allora, dato che una grammatica sensibile al contesto rende esponenziale la complessità del processo di analisi grammaticale della frase.

Ma allo stesso tempo sapevamo già che nel linguaggio c’era qualcosa di più, consapevolezza che abbiamo cercato di dimenticare per via delle limitazioni tecnologiche.

Per anni nel corso di Sistemi Cognitivi nella Laurea magistrale in Informatica che tenevo all’Università di Torino da un lato si spiegava come costruire sistemi di elaborazione del linguaggio naturale con le regole dell’AI simbolica (grammatiche, logica, ontologie, ecc.), e dall’altro dicevo che le nostre capacità linguistiche sono parte della nostra “conoscenza tacita”.

La conoscenza tacita

La conoscenza (o intelligenza tacita) è un concetto definito nel 1966 dal filosofo, economista e psicologo ungherese Michael Polanyi^[7], fratello del più famoso economista Karl Polanyi. La conoscenza tacita rappresenta quella parte della mente che riguarda il saper fare ed è acquisita tramite la pratica. La conoscenza tacita caratterizza attività motorie (come manipolare gli oggetti, andare in bicicletta), ma anche la nostra percezione, la nostra intelligenza emotiva e, fatto che abbiamo sottovalutato, anche capacità di base come parlare e ragionare. Noi impariamo a parlare e a ragionare prima di andare a scuola, prima di imparare le regole della grammatica, ma soprattutto anche senza mai dare un esame di logica. Viene definita tacita perché scarsamente accessibile alla coscienza e non descrivibile in maniera esplicita con il linguaggio e, quindi, difficilmente formalizzabile con la matematica o la logica. È la conoscenza tacita che ci permette di comprendere il linguaggio e di parlarlo, anche se è preclusa alla nostra capacità esplicita di capire come funziona e quindi alla possibilità di crearne un modello formale. Dobbiamo accettare la nostra umiltà metodologica.

E allo stesso modo ChatGPT impara a parlare senza avere bisogno di conoscere la grammatica, a tentativi, come i bambini, ma ha prestazioni infinitamente superiori ad ogni sistema di elaborazione del linguaggio naturale basato su regole grammaticali, logica e ontologie o basato su n-grammi e le loro frequenze.

Entriamo in mondo sempre più prevedibile ma poco spiegabile

Per la prima volta con i LLM abbiamo riprodotto in maniera utilizzabile alcune capacità della nostra conoscenza tacita, per definizione non esprimibile, ma abbiamo aperto il vaso di Pandora di un mondo che, se diventa più prevedibile grazie alle macchine, allo stesso tempo ci ricorda di non essere sempre spiegabile in termini di modelli espliciti.

^[1] Adly Templeton et al. Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Transformer Circuits Thread. 2024

[2] Eduardo G. Altmann, Giampaolo Cristadoro, e Mirko Degli Esposti. On the origin of long-range correlations in texts. PNAS. 2012

^[3] La legge di Zipf stabilisce che le parole più comuni in un testo sono molto più frequenti delle parole meno comuni. La seconda parola più comune appare circa la metà delle volte della parola più comune, la terza parola un terzo delle volte, e così via.

^[4] La legge di Heaps stabilisce che il numero di parole uniche in un testo cresce man mano che aumenta la sua lunghezza, ma cresce a un ritmo decrescente. All’inizio si trovano molte parole nuove, ma poi si trovano sempre meno parole nuove man mano che si continua a leggere.

^[5] Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani. Fractal Patterns May Illuminate the Success of Next-Token Prediction. arXiv:2402.01825. 2024

^[6] Shuntaro Takahashi,Kumiko Tanaka-Ishii. Do neural nets learn statistical laws behind natural language? PLOS ONE. 2017

^[7] Jascha Sohl-Dickstein. The boundary of neural network trainability is fractal. arXiv:2402.06184v1. 2024

^[8] Polanyi, Michael (1966). The Tacit Dimension. Garden City, NY: Doubleday.

Questo articolo è pubblicato in crossposting tra MagIA e La Stampa Tuttoscienze, per approfondire il dibattito sul linguaggio, l’intelligenza artificiale e il ruolo della conoscenza tacita nell’elaborazione linguistica.