Questo articolo è stato prodotto e originariamente pubblicato su Noema Magazine.
Quando un ingegnere di Google ha recentemente dichiarato che lo chatbot AI di Google fosse una persona, è scoppiato il pandemonio. Lo chatbot LaMDA è un grande modello di linguaggio (LLM) progettato per prevedere le parole che probabilmente seguiranno una qualsiasi riga di testo che gli viene fornita. Poiché molte conversazioni sono prevedibili, questi sistemi possono dedurre come mantenere una conversazione in modo produttivo. LaMDA lo ha fatto in modo così impressionante che l’ingegnere Blake Lemoine ha iniziato a chiedersi se ci fosse un’anima nella macchina.
Le reazioni alla storia di Lemoine sono state molto varie: alcune persone hanno ridicolizzato l’idea stessa che una macchina potesse mai essere una persona. Altri hanno suggerito che questo LLM non sia una persona, ma che il prossimo potrebbe esserlo. Altri ancora hanno sottolineato che ingannare gli esseri umani non è molto difficile; dopotutto, vediamo santi nel pane tostato.
Ma la diversità delle risposte mette in evidenza un problema più profondo: man mano che questi modelli linguistici di grandi dimensioni (LLM) diventano sempre più comuni e potenti, sembra esserci sempre meno consenso su come dovremmo interpretarli. Questi sistemi hanno superato molti test di ragionamento linguistico “di buon senso” nel corso degli anni, test che si riteneva potessero essere superati solo da una macchina che “pensa nel senso pieno che di solito riserviamo agli esseri umani”. Tuttavia, raramente questi sistemi dimostrano il buon senso promesso quando superano i test e tendono ancora a produrre assurdità evidenti, non sequitur e consigli pericolosi. Questo solleva una domanda inquietante: come possono questi sistemi essere così intelligenti e, allo stesso tempo così limitati?
Il problema di fondo non è l’intelligenza artificiale. Il vero problema è la natura limitata del linguaggio. Una volta abbandonate le vecchie supposizioni sul legame tra pensiero e linguaggio, diventa chiaro che questi sistemi sono destinati a una comprensione superficiale, che non si avvicinerà mai al pensiero completo e profondo che vediamo negli esseri umani. In sintesi, nonostante siano tra i sistemi di intelligenza artificiale più impressionanti al mondo, questi sistemi non saranno mai realmente simili a noi.
Dire tutto
Un tema dominante in gran parte del XIX e XX secolo, sia nella filosofia che nella scienza, era l’idea che la conoscenza fosse intrinsecamente linguistica — ovvero, conoscere qualcosa significava semplicemente pensare la frase corretta e comprendere come essa si connette ad altre frasi in una grande rete di affermazioni vere che conosciamo. Secondo questa logica, la forma ideale del linguaggio sarebbe un sistema puramente formale, logico-matematico, composto da simboli arbitrari collegati da regole rigorose di inferenza, ma anche il linguaggio naturale potrebbe servire se si facesse lo sforzo di eliminare ambiguità e imprecisioni. Come affermava Wittgenstein: “La totalità delle proposizioni vere è l’intera scienza naturale”. Questa posizione era così radicata nel XX secolo che le scoperte psicologiche riguardanti mappe cognitive e immagini mentali erano controverse, con molti che sostenevano che, nonostante le apparenze, esse dovessero comunque essere linguistiche alla base.

Questa visione è ancora sostenuta da alcuni intellettuali ipercolti: tutto ciò che può essere conosciuto può essere contenuto in un’enciclopedia, quindi leggere tutto potrebbe darci una conoscenza completa di ogni cosa. Questo concetto ha anche motivato gran parte del lavoro iniziale nell’IA simbolica, dove la manipolazione di simboli — simboli arbitrari combinati in modi diversi secondo regole logiche — era il paradigma dominante. Per questi ricercatori, la conoscenza di un’IA consisteva in un enorme database di frasi vere collegate logicamente tra loro a mano, e un sistema di IA era considerato intelligente se forniva la frase giusta al momento giusto — cioè, se manipolava i simboli nel modo appropriato. Questa nozione è alla base del test di Turing: se una macchina dice tutto ciò che dovrebbe dire, significa che sa di cosa sta parlando, poiché conoscere le frasi giuste e sapere quando usarle esaurisce il concetto di conoscenza.
Ma questa visione è stata sottoposta a una critica incisiva che l’ha accompagnata da allora: il fatto che una macchina possa parlare di qualsiasi cosa non significa che comprenda ciò di cui sta parlando. Questo perché il linguaggio non esaurisce la conoscenza; al contrario, è solo una forma molto specifica e profondamente limitata di rappresentazione della conoscenza. Qualsiasi linguaggio — che si tratti di un linguaggio di programmazione, di una logica simbolica o di una lingua parlata — si basa su uno schema rappresentazionale specifico; eccelle nell’esprimere entità distinte, proprietà e le relazioni tra di esse, ma a un livello estremamente alto di astrazione. Tuttavia, c’è una differenza enorme tra leggere uno spartito musicale e ascoltare una registrazione della musica, e un’ulteriore differenza rispetto all’avere l’abilità di suonarla.
Tutti gli schemi rappresentativi comportano una compressione delle informazioni su qualcosa, ma ciò che viene incluso o escluso in questo processo varia. Lo schema rappresentativo del linguaggio fatica a descrivere informazioni più concrete, come forme irregolari, il movimento degli oggetti, il funzionamento di un meccanismo complesso o le pennellate sfumate di un dipinto — per non parlare dei movimenti specifici e delicati necessari per cavalcare un’onda. Tuttavia, esistono schemi rappresentativi non linguistici che possono esprimere queste informazioni in modo accessibile: la conoscenza iconica, che comprende immagini, registrazioni, grafici e mappe; e la conoscenza distribuita che si trova nelle reti neurali addestrate — ciò che spesso chiamiamo abilità pratica o memoria muscolare. Ogni schema esprime facilmente alcune informazioni, mentre trova altre difficili — o persino impossibili — da rappresentare: come descrivere con le parole cosa significa “O Picasso o Twombly”?
I limiti del linguaggio
Un modo per comprendere ciò che rende unico lo schema rappresentativo linguistico — e come esso sia limitato — è riconoscere quanto poche informazioni trasmetta da solo. Il linguaggio è un metodo a bassa larghezza di banda per trasmettere informazioni: parole o frasi isolate, prive di contesto, comunicano molto poco. Inoltre, a causa dell’elevato numero di omonimi e pronomi, molte frasi risultano profondamente ambigue: l’espressione “la scatola era nel recinto” [“the box was in the pen”] si riferisce a una penna da inchiostro o a un box per bambini? Come Chomsky e i suoi seguaci hanno sottolineato per decenni, il linguaggio non è un mezzo chiaro e privo di ambiguità per una comunicazione precisa.
Gli esseri umani non hanno bisogno di un veicolo di comunicazione perfetto perché condividiamo una comprensione non linguistica. La nostra comprensione di una frase spesso dipende dalla nostra conoscenza più profonda dei contesti in cui quel tipo di frase si presenta, permettendoci di dedurre ciò che essa sta cercando di comunicare. Questo è evidente nelle conversazioni, poiché spesso parliamo di qualcosa che è direttamente davanti a noi, come una partita di calcio, o comunichiamo con un chiaro obiettivo, dato il ruolo sociale che abbiamo in una determinata situazione, come ordinare cibo da un cameriere. Ma lo stesso vale per la lettura dei testi — una lezione che non solo mette in discussione i test di linguaggio basati sul buon senso nell’IA, ma anche un metodo diffuso per insegnare ai bambini la comprensione del testo senza contesto. Questo metodo si concentra sull’uso di strategie generali di comprensione, ma la ricerca suggerisce che il fattore chiave per la comprensione è in realtà la quantità di conoscenze pregresse che un bambino ha sull’argomento. Capire una frase o un brano dipende infatti dalla conoscenza di base del tema trattato.
La natura contestuale delle parole e delle frasi è alla base del funzionamento dei modelli linguistici di grandi dimensioni (LLM). Le reti neurali, in generale, rappresentano la conoscenza come un saper fare, ossia l’abilità di riconoscere schemi complessi e sensibili al contesto, individuando regolarità — sia concrete che astratte — necessarie per gestire gli input in modo preciso e mirato al compito. Negli LLM, questo significa che il sistema riesce a cogliere schemi a diversi livelli nei testi, riconoscendo sia come le singole parole si connettono nel contesto di una frase, sia come le frasi si integrano nel brano più ampio. Di conseguenza, la comprensione del linguaggio è inevitabilmente legata al contesto: ogni parola viene interpretata non solo in base al suo significato da dizionario, ma anche in funzione del ruolo che gioca all’interno di una serie di frasi. Poiché molte parole — come “carburatore”, “menu”, “debugging” o “elettrone” — sono usate quasi esclusivamente in contesti specifici, persino una frase isolata contenente una di queste parole porta con sé un chiaro riferimento al contesto.

In breve, gli LLM sono addestrati a cogliere la conoscenza di base per ciascuna frase, osservando le parole e le frasi circostanti per ricostruire il contesto. Ciò consente loro di prendere un’infinita possibilità di frasi o espressioni diverse come input e proporre modi plausibili (sebbene non perfetti) per continuare la conversazione o completare il resto del passaggio. Un sistema addestrato su testi scritti da esseri umani, spesso conversando tra loro, dovrebbe essere in grado di elaborare una comprensione generale necessaria per una conversazione convincente.
Comprensione superficiale
Mentre alcuni esitano a usare il termine “comprensione” in questo contesto o a definire “intelligenti” gli LLM, non è chiaro a cosa serva davvero questo controllo semantico al giorno d’oggi. Tuttavia, i critici hanno ragione ad accusare questi sistemi di essere impegnati in una sorta di mimetismo. Questo perché la comprensione del linguaggio da parte degli LLM, per quanto impressionante, è superficiale. Questo tipo di comprensione superficiale è qualcosa di familiare; le aule sono piene di studenti che recitano gerghi senza sapere di cosa stanno parlando — impegnati di fatto in un mimetismo dei loro professori o dei testi che stanno leggendo. Fa parte della vita; spesso non ci rendiamo conto di quanto poco sappiamo, specialmente quando si tratta di conoscenze acquisite attraverso il linguaggio.
Gli LLM hanno acquisito questo tipo di comprensione superficiale su praticamente qualsiasi argomento. Un sistema come GPT-3 viene addestrato nascondendo le parole successive in una frase o in un testo e costringendo la macchina a indovinare quale parola sia più probabile, per poi correggere gli errori. Con il tempo, il sistema diventa abile nell’indovinare le parole più probabili, trasformandosi in un efficace sistema di previsione.
Questo porta con sé una certa comprensione reale. Per qualsiasi domanda o enigma, ci sono solitamente poche risposte corrette, ma un numero infinito di risposte sbagliate. Questo costringe il sistema ad apprendere competenze linguistiche specifiche, come spiegare una battuta, risolvere un problema di parole o capire un puzzle logico, al fine di prevedere regolarmente la risposta corretta su questi tipi di domande. Queste abilità e la conoscenza correlata consentono alla macchina di spiegare come funziona qualcosa di complesso, semplificare concetti difficili, riformulare e raccontare storie, insieme a una serie di altre abilità dipendenti dal linguaggio. Piuttosto che un enorme database di frasi collegate da regole logiche, come presupponeva l’IA simbolica, la conoscenza è rappresentata come un saper fare sensibile al contesto, capace di generare una frase plausibile in base alla linea precedente.
Ma la capacità di spiegare un concetto a livello linguistico è diversa dalla capacità di utilizzarlo praticamente. Il sistema può spiegare come eseguire una divisione lunga senza essere in grado di eseguirla, o spiegare quali parole sono offensive e non dovrebbero essere dette, salvo poi dirle tranquillamente. La conoscenza contestuale è incorporata in una forma — la capacità di esporre informazioni linguistiche — ma non è integrata in un’altra forma, ovvero come competenza pratica nel fare cose come dimostrare empatia o gestire con sensibilità una questione delicata.
Questo tipo di saper fare è essenziale per chi usa il linguaggio, ma ciò non significa che siano competenze linguistiche — la componente linguistica è accessoria, non centrale. Questo vale per molti concetti, anche quelli appresi da lezioni o libri: mentre le lezioni di scienze includono una componente teorica, gli studenti vengono valutati principalmente sul loro lavoro pratico in laboratorio. Al di fuori delle discipline umanistiche, in particolare, saper parlare di qualcosa è spesso meno utile o importante rispetto alle competenze pratiche necessarie per far funzionare correttamente le cose.
Una volta grattata la superficie, diventa più facile vedere quanto siano realmente limitati questi sistemi: hanno una capacità di attenzione e una memoria che coprono grosso modo un paragrafo. Questo può passare inosservato durante una conversazione, poiché tendiamo a concentrarci solo sugli ultimi commenti e a pensare alla nostra prossima risposta.
Ma il “saper fare” necessario per conversazioni più complesse — ascolto attivo, richiamare e rivedere commenti precedenti, mantenersi su un tema per fare un punto preciso mentre si respingono distrazioni, e così via — richiede più attenzione e memoria di quanta il sistema possa gestire. Questo riduce ulteriormente il tipo di comprensione a cui il sistema può accedere: è facile ingannarlo semplicemente essendo incoerenti ogni pochi minuti, cambiando lingua o manipolandolo. Se si fa un passo troppo indietro, il sistema ricomincerà da capo, accettando le nuove affermazioni come coerenti con i commenti precedenti, cambiando lingua con te o riconoscendo come vero qualsiasi cosa tu abbia detto. La comprensione necessaria per sviluppare una visione coerente del mondo è ben oltre la sua portata.
Oltre il linguaggio
Abbandonare l’idea che tutta la conoscenza sia linguistica ci permette di riconoscere quanto della nostra conoscenza sia non linguistica. Mentre i libri contengono molte informazioni che possiamo decodificare e utilizzare, lo stesso vale per molti altri oggetti: le istruzioni IKEA non si preoccupano nemmeno di scrivere testi accanto ai disegni; i ricercatori di intelligenza artificiale spesso guardano prima i diagrammi in un articolo, comprendono l’architettura della rete e solo successivamente leggono il testo; i visitatori possono orientarsi a New York semplicemente seguendo le linee rosse o verdi su una mappa.

Questo va oltre semplici icone, grafici e mappe. Gli esseri umani apprendono molto direttamente esplorando il mondo, che ci mostra come gli oggetti e le persone possono e non possono comportarsi. Le strutture degli artefatti e dell’ambiente umano trasmettono intuitivamente molte informazioni: le maniglie delle porte sono all’altezza delle mani, i martelli hanno impugnature morbide, e così via. La simulazione mentale non linguistica negli animali e negli esseri umani è comune e utile per pianificare scenari, e può essere utilizzata per costruire o riprogettare artefatti. Allo stesso modo, le usanze sociali e i rituali possono trasmettere abilità di vario tipo alla generazione successiva attraverso l’imitazione, estendendosi dalla preparazione di cibi e medicine al mantenimento della pace in momenti di tensione. Gran parte della nostra conoscenza culturale è iconica o nella forma di movimenti precisi tramandati da artigiani esperti ad apprendisti. Questi schemi complessi di informazioni sono difficili da esprimere e trasmettere attraverso il linguaggio, ma sono comunque accessibili agli altri. Le reti neurali eccellono nel rilevare e perfezionare proprio questo tipo di informazione sensibile al contesto.
Il linguaggio è importante perché può trasmettere molte informazioni in un formato ridotto e, specialmente dopo l’invenzione della stampa e di internet, consente la riproduzione e la diffusione su larga scala. Tuttavia, comprimere le informazioni nel linguaggio non è privo di costi: richiede un grande sforzo per decodificare un passaggio denso. Le lezioni di materie umanistiche possono richiedere molta lettura al di fuori delle lezioni, ma una parte significativa del tempo in classe viene comunque spesa a esaminare passaggi difficili. Costruire una comprensione profonda richiede tempo ed è un processo faticoso, indipendentemente dal modo in cui l’informazione viene fornita.
Questo spiega perché una macchina addestrata sul linguaggio possa sapere così tanto e allo stesso tempo così poco. Sta acquisendo solo una piccola parte della conoscenza umana attraverso un piccolo collo di bottiglia. Tuttavia, quella piccola parte di conoscenza umana può riguardare qualsiasi cosa, che si tratti di amore o astrofisica. In questo senso, è un po’ simile a uno specchio: dà l’illusione della profondità e può riflettere quasi tutto, ma è spesso solo un centimetro. Se proviamo a esplorarne la profondità, ci scontriamo con i suoi limiti.
Esorcizzare il fantasma
Questo non significa che queste macchine siano stupide, ma suggerisce che ci sono limiti intrinseci a quanto possano diventare intelligenti. Un sistema addestrato esclusivamente sul linguaggio non si avvicinerà mai all’intelligenza umana, anche se venisse addestrato fino alla fine dell’universo. È semplicemente il tipo sbagliato di conoscenza per sviluppare consapevolezza o diventare una persona. Tuttavia, sembreranno sicuramente avvicinarsi all’intelligenza umana se ci limitiamo a osservare la superficie. E, in molti casi, la superficie è sufficiente; pochi di noi applicano realmente il test di Turing alle altre persone, interrogandole aggressivamente sulla profondità della loro comprensione o costringendole a risolvere problemi di moltiplicazione a più cifre. La maggior parte delle conversazioni sono chiacchiere leggere.
Ma non dobbiamo confondere la comprensione superficiale che gli LLM possiedono con la comprensione profonda che gli esseri umani acquisiscono osservando lo spettacolo del mondo, esplorandolo, sperimentandolo e interagendo con la cultura e altre persone. Il linguaggio può essere un componente utile che estende la nostra comprensione del mondo, ma non esaurisce l’intelligenza, come è evidente da molte specie come corvi, polpi e primati.
Piuttosto, la comprensione profonda e non linguistica è la base che rende il linguaggio utile; è grazie alla nostra comprensione profonda del mondo che riusciamo a capire rapidamente di cosa stanno parlando gli altri. Questo tipo di apprendimento e di “saper fare”, sensibile al contesto e più ampio, rappresenta una forma di conoscenza più fondamentale e antica, quella che ha sostenuto l’emergere della coscienza negli esseri viventi e che rende possibile la sopravvivenza e il prosperare. Ed è proprio questo tipo di conoscenza che i ricercatori di IA cercano quando puntano al “buon senso” nell’intelligenza artificiale, piuttosto che concentrarsi sul linguaggio. Gli LLM non hanno un corpo stabile o un mondo costante di cui essere coscienti, perciò la loro conoscenza inizia e finisce con altre parole, e il loro buon senso è sempre superficiale. L’obiettivo è che i sistemi di IA si concentrino sul mondo di cui si parla, non sulle parole in sé — ma gli LLM non colgono questa distinzione. Non esiste un modo per approssimare questa comprensione profonda solo attraverso il linguaggio; semplicemente non è il tipo giusto di conoscenza. L’interazione prolungata con gli LLM rende evidente quanto poco si possa conoscere soltanto attraverso il linguaggio.
Per leggere l’articolo originale e altri saggi simili in inglese, visita noemamag.com

