Perché i Large Language Model non possono fare a meno della linguistica

Questo articolo è pubblicato in crossposting con La Stampa – Tuttoscienze. I Large Language Models (LLM), come ChatGPT, imitano il linguaggio umano senza seguire regole esplicite, ma la linguistica resta essenziale. Analizza i loro limiti, corregge incoerenze e ottimizza l’apprendimento. Alessandro Lenci esplora il ruolo delle scienze del linguaggio in questa rivoluzione dell’IA.

L’assunto che ha guidato dalla sua nascita la ricerca per la costruzione di “macchine parlanti” è che questa potesse realizzarsi solo implementando i modelli e le teorie del linguaggio umano elaborate dalla linguistica. Questa assunzione appare a prima vista del tutto ovvia. Se vogliamo costruire macchine dotate della capacità che è da sempre considerata la quintessenza dell’essere umano – comunicare e agire nel mondo attraverso il linguaggio -, sembra naturale guardare all’uomo per capire come questa capacità funzioni per poi realizzarla artificialmente nelle macchine. La linguistica, nelle sue varie declinazioni (teorica, psicolinguistica, computazionale, ecc.), studia le strutture e i meccanismi che determinano l’organizzazione del linguaggio e delle lingue naturali, ed elabora modelli su come questo viene appreso e usato dagli esseri umani. Sono dunque le teorie linguistiche che possono e devono guidare il processo di costruzione di macchine che parlano. L’avvento dei Large Language Models (LLM) come ChatGPT, con la loro capacità di usare il linguaggio – apparentemente – indistinguibile da quella umana, ha messo in crisi la fondatezza di tale argomentazione, creando i presupposti per una vera e propria “rivoluzione copernicana” nel rapporto tra scienze del linguaggio e Intelligenza Artificiale (IA).

Per cercare di apprezzare la portata e le conseguenze epocali del cambiamento avvenuto, provate a risolvere questo piccolo quesito:

(1) Ieri sera Gianni ha chiesto a Paolo se volesse andare al cinema con lui. Paolo gli ha risposto: Domani devo alzarmi presto. Cosa intendeva dire Paolo a Gianni?

Credo che nessuno di voi esiti un solo istante: Paolo ha gentilmente rifiutato l’invito di Gianni adducendo come motivo il fatto che il giorno dopo si sarebbe dovuto alzare presto. Paolo ha compiuto quello che i linguisti chiamano un atto linguistico indiretto: la frase di Paolo, che alla lettera è un’affermazione, viene usata e interpretata come un modo indiretto di rifiutare un’offerta. Quali tipi di conoscenze avete impiegato per rispondere alla domanda a quella domanda? La linguistica risponderebbe così: avete riscostruito la struttura sintattica delle frasi (es. il soggetto inespresso di “volesse andare” è Paolo e il pronome “lui” si riferisce a Gianni), avete identificato e combinato i significati delle parole (es. il verbo “alzarsi” significa in questo caso svegliarsi al mattino e non alzarsi dalla sedia), li avete poi integrati con varie conoscenze su come funziona il mondo (es. i film alla sera finiscono tardi e questo può essere incompatibile con la necessità di svegliarsi presto il giorno dopo) e avete immaginato quale intento comunicativo potesse avere in mente Paolo pronunciando quella frase in quel determinato contesto. Come progettare però una macchina in grado di risolvere il quesito in (1)? Qui sta la grande differenza tra il prima e il dopo gli LLM.

Ante LLM, compito delle scienze del linguaggio era quello di individuare le conoscenze e i processi che determinano le nostre abilità linguistiche (come quelli che ho esemplificato sopra), per poi fornirle esplicitamente ai sistemi artificiali con l’obiettivo di dotarli delle medesime capacità. Fino agli anni Novanta del secolo scorso, queste conoscenze prendevano soprattutto la forma di sistemi di regole e strutture (grammatiche context-free, feature structure, reti semantiche, e così via) con le quali venivano formalizzate a mano dai linguisti computazionali rappresentazioni e processi linguistici. Successivamente, con il diffondersi del paradigma statistico “data-driven”, le medesime conoscenze sono state rappresentate come dati annotati con categorie e strutture linguistiche, usati per addestrare algoritmi di machine learning supervisionato. In questa prospettiva, un tipico esempio di sistema progettato per rispondere al quesito in (1) consiste in un classificatore di intenti comunicativi, addestrato ad assegnare a ogni frase il tipo appropriato di atto linguistico (es. asserzione, rifiuto, ecc.), sulla base di un corpus di interazioni preventivamente annotato con le medesime categorie. A sua volta questo classificatore può usare informazioni sintattiche e semantiche estratte da altri modelli specificatamente addestrati a riconoscere le funzioni sintattiche delle parole, i riferimenti dei pronomi anaforici, i significati delle parole, e così via. Il passaggio dai modelli a regole ai metodi di machine learning ha costituito un salto scientifico e tecnologico estremamente significativo, permettendo ai sistemi artificiali di acquisire maggiore robustezza e capacità di generalizzazione e adattamento. Allo stesso tempo, questi modelli, anche quelli di “deep learning” basati su reti neurali, hanno però continuato ad elaborare il linguaggio utilizzando rappresentazioni esplicite di categorie e strutture definite dalla linguistica.

Post LLM, abbiamo sistemi artificiali che manifestano capacità di interagire con noi usando il linguaggio naturale con una qualità nettamente superiore alle generazioni precedenti, senza essere stati specificatamente addestrati a riconoscere e manipolare categorie e strutture linguistiche. Nessuno ha insegnato direttamente a ChatGPT a riconoscere l’intento comunicativo di una frase, eppure esso è in grado di fornire la seguente risposta al quesito in (1), usato come prompt per interrogare il sistema:

(2) ChatGPT: Paolo ha risposto a Gianni dicendo “Domani devo alzarmi presto”, il che implica che Paolo non può andare al cinema con Gianni la sera stessa. Questo perché deve svegliarsi presto il giorno seguente e probabilmente vuole riposare e andare a letto presto per essere riposato.[1]

Allo stesso modo, ChatGPT risponde correttamente a domande sulle strutture sintattiche, senza avere avuto un addestramento specifico sulla sintassi dei linguaggi naturali:

(3) prompt: Qual è il soggetto di “volesse andare” nella frase “Ieri sera Gianni ha chiesto a Paolo se volesse andare al cinema con lui.”?

ChatGPT: Il soggetto di “volesse andare” nella frase “Ieri sera Gianni ha chiesto a Paolo se volesse andare al cinema con lui.” è “Paolo”. La frase può essere parafrasata come “Ieri sera Gianni ha chiesto a Paolo se Paolo volesse andare al cinema con lui.”

Gli LLM sono complesse reti neurali che operano su strutture vettoriali di numeri reali (i cosiddetti “embedding”) che codificano quantità enormi e diverse di informazioni estratte dalla distribuzione statistica dei dati linguistici di addestramento, ma in maniera del tutto implicita. Infatti, questi modelli non sono stati addestrati a manipolare categorie e strutture individuate dalla teoria linguistica, ma solo a predire una parola dato un contesto di parole precedenti. Le conoscenze e capacità linguistiche non sono state fornite ai LLM dai loro progettisti, né sotto forma di regole, né di dati annotati, ma sono “abilità emergenti”,[2] poiché nascono come risultato del compito di predizione con cui le reti vengono addestrate. In realtà, questo non è del tutto vero. Le prestazioni così strabilianti degli LLM come ChatGPT non derivano solo dal semplice task di predizione, ma anche da complessi processi di raffinamento a posteriori basati su tecniche come “instruction tuning” e “reinforcement learning” in cui i sistemi sono esplicitamente addestrati a fornire risposte appropriate determinate da valutatori umani. Tali raffinamenti sono necessari proprio per evitare che gli LLM producano testi incoerenti o inappropriati dal punto di vista sociale. Detto questo, rimane vero che essi non coinvolgono sicuramente le conoscenze linguistiche di base: nessuno insegna a questi modelli cosa sia un soggetto grammaticale.

Gli LLM sono dunque le prime “macchine parlanti” costruite senza un contributo diretto delle teorie della linguistica sull’organizzazione e il funzionamento del linguaggio umano. Anche questo non è totalmente corretto. Vari neuroscienziati hanno evidenziato significative somiglianze a livello computazionale tra LLM e il cervello umano, ad esempio per la centralità dei meccanismi predittivi e l’uso di rappresentazioni continue come gli “embedding”.[3] Inoltre, l’idea di poter derivare informazione sul significato delle espressioni linguistiche dalle loro co-occorrenze statistiche è al centro della “semantica distribuzionale”, un modello del significato ben radicato nella tradizione linguistica e del quale gli LLM rappresentano solo l’implementazione più evoluta.[4] Al tempo stesso, però, non si può negare che gli LLM imparino a “parlare” in modo molto diverso dagli esseri umani. Prima di tutto, sono addestrati su enormi quantità di dati linguistici, ben maggiori di quelli ai quali qualunque essere umano potrebbe essere esposto neppure in mille vite. Secondo il linguista Ron Katzir, i dati di addestramento usati per ChatGPT corrispondono a 36.540 anni uomo![5] In secondo luogo, gli LLM ricavano tutta la loro conoscenza solo dai testi, o al più da testi e immagini (come nel caso di GPT-4 e Gemini), in un processo di estrazione statistica meramente passiva. Al contrario, i bambini imparano a parlare in un ambiente ricco di stimoli multimodali, nel quale interagiscono in maniera attiva con altri esseri umani. Quindi, gli LLM sono stati addestrati con dati che sono sia qualitativamente molto più poveri, sia quantitativamente molto più ricchi di quelli da cui noi impariamo il linguaggio. Anche sul piano del funzionamento, gli LLM mostrano differenze importanti rispetto agli esseri umani. Il solo motivo per cui ChatGPT ha prodotto la risposta in (2) è perché questa è la stringa di testo più probabile data la stringa di testo usata come prompt. La probabilità di sequenze di parole è infatti l’unico criterio di comportamento che guida il sistema. Questo processo probabilistico svolge un ruolo fondamentale anche nella cognizione umana, ma non è l’unica forma di ragionamento di cui siamo capaci.[6] Il fatto che noi produciamo la stessa risposta di ChatGPT, non significa che lo facciamo usando i suoi stessi meccanismi. Come dice Murray Shanahan, nonostante sembrino parlare come noi, gli LLM sono delle nuove entità che non sono in realtà come noi.[7]

In tutto questo non c’è niente di paradossale. La storia dello sviluppo tecnologico è costellata di esempi di macchine che sono riuscite a svolgere funzioni prima unicamente proprie di uomini o animali, ma solo divergendo radicalmente dal modo in cui le stesse funzioni sono realizzate in natura. Un caso paradigmatico è quello del volo. Fino a quando si è cercato di progettare “macchine volanti” ispirandosi direttamente agli uccelli, i risultati sono sempre stati fallimentari. Il primo volo dei fratelli Wright a Kitty Hawk (North Carolina) il 17 dicembre 1903 è stato invece possibile costruendo una macchina con forma e caratteristiche molto diverse da quelle che avevano consentito a una parte del mondo animale di conquistare il cielo, come ad esempio la presenza di ali rigide e un motore che fornisce la propulsione necessaria. Gli aerei e le altre “macchine volanti” condividono alcuni elementi strutturali degli uccelli, ma sono anche totalmente diverse nel modo in cui realizzano l’azione di volare. Il 30 novembre 2022, giorno in cui è stata annunciata la nascita di ChatGPT da parte di OpenAI, è accaduto qualcosa di simile. In questo senso, si può parlare di una “rivoluzione copernicana” provocata dagli LLM. La grande rivoluzione, culturale oltre che scientifica, determinata da Copernico è stata quella di cambiare totalmente la prospettiva sull’universo, togliendo l’uomo dal suo centro. In maniera analoga, gli LLM hanno tolto l’uomo dal centro del linguaggio: le abilità di comunicazione linguistica sembrano adesso manifestarsi anche in macchine che, seppure ispirate a meccanismi presenti negli esseri umani, però le realizzano in maniera radicalmente differente da ciò che significa imparare e usare il linguaggio per l’uomo. Similmente, gli LLM hanno tolto la linguistica – intesa appunto come scienza del linguaggio umano – dal centro dell’universo della ricerca delle “macchine parlanti”. C’è dunque un posto per la linguistica nel nuovo universo creato dagli LLM e, se sì, dove si trova? Ci sono almeno tre ragioni per cui l’IA, anche nell’era degli LLM, ha ancora bisogno delle scienze del linguaggio, sebbene in modo molto diverso rispetto a prima.

In primo luogo, sebbene gli LLM diano l’impressione di “parlare come noi”, uno sguardo più analitico rivela importanti differenze e carenze rispetto ai parlanti umani. La ricerca sta evidenziando limiti importanti nelle loro abilità linguistiche, che non riguardano solo il ben noto fenomeno delle “allucinazioni” ovvero della produzione di risposte verisimili dal punto di vista della struttura testuale, ma del tutto inventate riguardo al contenuto. Gli LLM appaiono come degli ottimi imitatori dei testi che gli umani possono produrre (ad esempio sanno scrivere una lettera di diffida come se fossero un avvocato, oppure una poesia in stile surrealista), ma sono spesso pessimi a livello dei ragionamenti che sono in grado di fare.[8] Sono molto bravi nel gestire le strutture o le situazioni linguistiche più frequenti e che dunque hanno maggiore probabilità di aver osservato nella fase di addestramento, ma hanno una minore capacità di generalizzazione rispetto a eventi più rari.[9] In altri termini, non sappiamo ancora se e quanto queste macchine “parlino” effettivamente come noi. Le scienze del linguaggio umano hanno un ruolo cruciale per rispondere a queste domande. Assolvere a tale ruolo richiede un lavoro scientifico estremamente sofisticato per andare al di là della semplice plausibilità osservativa dei testi prodotti dagli LLM.

Il secondo punto è che abbiamo creato macchine dalle incredibili prestazioni linguistiche, senza però avere una chiara teoria esplicativa del perché hanno successo quando hanno successo e, soprattutto, del perché sbagliano quando sbagliano. Ciò è dovuto all’enorme complessità architetturale degli LLM e alla natura implicita delle rappresentazioni vettoriali distribuite che essi usano, che li rendono appunto sistemi “black box”, scatole nere ancora difficilmente interpretabili. Non sappiamo quali informazioni questi modelli rappresentano nei loro miliardi di parametri, né abbiamo ad oggi una teoria causale di come certi stati della macchina determino un suo particolare comportamento. In questo senso, gli LLM hanno proprietà di non-località proprie dei sistemi complessi: una piccola variazione linguistica nella formulazione di una domanda, ad esempio può determinare risposte radicalmente differenti, o un errore là dove invece prima si registrava un successo. Il primo volo dei fratelli Wright è avvenuto prima che venissero pienamente acquisite e modellate le conoscenze che abbiamo ora sull’aerodinamica. Allo stesso modo, abbiamo bisogno di una teoria causale esplicativa delle “macchine parlanti”. La forma di questa teoria non è ancora chiara, ma ciò non significa che sia impossibile trovarla. Siamo solo agli inizi del viaggio, così come quel giorno del 1903 a Kitty Hawk ha segnato solo il primo passo di uno sviluppo dell’aeronautica che è stato incredibilmente veloce. Anche qui un contributo fondamentale può e deve venire dalle scienze del linguaggio. Queste possono indagare come e se gli LLM codifichino rappresentazioni e strutture che sottendono le capacità linguistiche umane. Al tempo stesso, la linguistica dovrà dotarsi di nuovi strumenti e modelli teorici adatti ad analizzare la complessità degli LLM.

Un terzo elemento è legato proprio alla natura degli LLM attuali. Come si è detto sopra, non c’è niente di particolarmente strano nel fatto che una macchina svolga le medesime funzioni di esseri biologici, ma con meccanismi molto diversi. Si tratta però di vedere se la macchina sia progettata per acquisire e svolgere quelle funzioni nel modo più economico possibile. L’aumento del fattore di scala, sia nelle architetture che nelle quantità di dati di addestramento, ha avuto un ruolo determinate nello sviluppo delle capacità degli LLM. Questa crescita però non può continuare, perché sta diventando largamente insostenibile, anche dal punto di vista ambientale, tanto da far emergere il problema del “carbon footprint” degli LLM. In questo senso, è possibile guardare alle scienze del linguaggio per vedere quali principi e vincoli della conoscenza del linguaggio umano possano essere usati per ottimizzare gli stessi LLM. Il linguaggio umano è il risultato di un complesso processo di adattamento evolutivo in cui una funzionalità comunicativa altamente sofisticata si è sviluppata ottimizzando l’uso delle limitate risorse cognitive e fisiologiche degli esseri umani che devono apprendere quella funzionalità. Questo può ad esempio riguardare la possibilità di avere un’organizzazione neurale in grado di supportare generalizzazioni anche in presenza di pochi dati di input, permettendo così una più efficiente gestione dei dati limitati a cui siamo esposti, oppure i vantaggi derivanti dall’integrazione di stimoli multimodali molto più ricchi dei semplici corpora testuali, e così via. Capire meglio come gli esseri umani imparano il linguaggio può dunque diventare un modo per rendere gli LLM più funzionali ed economici, ottenendo magari anche prestazioni migliori.

La “rivoluzione copernicana” determinata dagli LLM ha cambiato dunque radicalmente il ruolo delle scienze del linguaggio nell’IA, rendendolo però non meno necessario. Si è riusciti a costruire “macchine parlanti” in grado di imitare le nostre performance linguistiche solo rinunciando a implementare esplicitamente le strutture e le categorie postulate dalla teoria linguistica, ma non si può fare a meno di quest’ultima se vogliamo comprendere tali modelli e farli passare da meri generatori di testi a veri agenti comunicativi. Questo aspetto è essenziale per il ruolo che gli LLM avranno nel nostro mondo. Per tornare al caso del volo, lo scopo di creare “macchine volanti” è stato quello di conquistare la mobilità nel cielo, non di volare insieme agli uccelli. Nella creazione delle macchine parlanti vogliamo invece creare entità che sono intrinsecamente sociali: non vogliamo solo macchine che generino simulacri di testi umani, bensì macchine che comunichino con noi e come noi, condividendo le medesime conoscenze, modi di ragionare e valori. Tutto ciò è cruciale data la presenza pervasiva che l’IA avrà nel nostro mondo.

Se gli LLM non possono fare a meno della linguistica, le scienze del linguaggio, d’altra parte, sono destinate ad essere profondamente trasformate da essi. Questi possono essere usati come banchi di prova per i modelli linguistici e per falsificare ipotesi sulla natura stessa del linguaggio.[10] Ad esempio, il fatto che un modello computazionale che usa solo probabilità di sequenze di parole sia in grado di rispondere correttamente al quesito in (1), può essere un indizio che anche gli esseri umani usino il medesimo meccanismo, magari in situazioni fortemente convenzionalizzate, in cui non è necessario ricorrere a sofisticati ragionamenti basati sulla predizione delle possibili intenzioni comunicative del nostro interlocutore.[11] Se gli LLM sono stati accusati di essere “pappagalli stocastici”,[12] non bisogna dimenticare che spesso anche gli esseri umani usano il linguaggio nella stessa maniera e ciò contribuisce anche alla nostra efficienza comunicativa.[13] La linguistica, dunque, deve cambiare o rinunciare a molte delle sue presupposizioni sul linguaggio per poter essere in grado di essere parte del nuovo universo creato dagli LLM. Ma pensare che questo universo sia possibile e possa dispiegarsi pienamente senza le scienze del linguaggio sarebbe un atto di hybris tanto dannoso e inefficace quanto quelli che hanno guidato le precedenti generazioni di ricerca sulle “macchine parlanti” in IA.

Immagini generate tramite DALL-E

[1] Risposta generata dalla versione base di ChatGPT interrogata il 1 luglio 2024.

[2] Wei, J., et al. (2022). Emergent abilities of large language models. ArXiv: 2206.07682.

[3] Goldstein, A., et al. (2022). Shared computational principles for language processing in humans and deep language models. Nature Neuroscience, 25(3), pp. 369-380.

[4] Lenci, A., Sahlgren M. (2023), Distributional semantics. Cambridge: Cambridge University Press.

[5] Considerando 11 milioni di parole come la media di input linguistico ricevuto in un anno, dato questo ricavato da vari studi sull’acquisizione del linguaggio. Cf. Lan, N., Chemla, E., & Katzir, R. (2024). “Large Language Models and the Argument From the Poverty of the Stimulus”, Lingbuzz, 006829.

[6] Kahneman D. (2011), Thinking Fast and Slow. New York: Farrar, Straus and Giroux.

[7] Shanahan, M. (2024). “Talking about Large Language Models”. Communications of the ACM, 67(2), 68–79.

[8] Mahowald, K., et al. (2024). “Dissociating language and thought in large language models”. Trends in Cognitive Sciences.

[9] McCoy, R. T et al. (2023). “Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve”. ArXiv: 2309.13638.

[10] Fedorenko, E., et al. (2024). “Language is primarily a tool for communication rather than thought”. Nature, 630(8017), 575-586.

[11] Hu, J., et al. (2023). “A fine-grained comparison of pragmatic language understanding in humans and language models”. Proceedings of ACL: 4194-4213.

[12] Bender, E. M., et al. (2021). “On the dangers of stochastic parrots: Can language models be too big?”. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.

[13] Lenci, A. (2023), “Understanding Natural Language Understanding Systems. A Critical Analysis”. Sistemi Intelligenti, 35(2): 277-302.