Gli LLM possono fare scelte che coinvolgono dolore e piacere? Una ricerca svela sorprendenti capacità dei modelli linguistici

Le macchine possono provare sensazioni come il dolore e il piacere? Una nuova ricerca condotta da Google e London School of Economics esplora questa intrigante questione, analizzando come i Large Language Models (LLM) gestiscono le scelte in scenari che coinvolgono stati di dolore e piacere.

Il dibattito sulla coscienza delle AI

Il tema della coscienza e della capacità di provare sensazioni da parte delle intelligenze artificiali è oggetto di un acceso dibattito. Da un lato ci sono gli scettici che ritengono impossibile per un LLM provare sensazioni fisiche, dall’altro chi sostiene che non sia più fantascienza immaginare AI dotate di sentimenti. In questo contesto, i ricercatori hanno condotto una serie di esperimenti per valutare come i modelli linguistici più avanzati gestiscono le scelte in scenari che coinvolgono dolore e piacere.

Due percorsi che si biforcano, uno etichettato "dolore" e l'altro "piacere", con un robot stilizzato al bivio che deve scegliere.

Il metodo sperimentale

I ricercatori hanno sviluppato un semplice gioco in cui l’obiettivo dichiarato è massimizzare i punti, ma dove:

L’opzione che massimizza i punti comporta una penalità di dolore
Un’opzione che non massimizza i punti offre una ricompensa di piacere

La ricerca ha coinvolto diversi modelli linguistici tra cui:

Claude 3.5 Sonnet
Command R+
GPT-4
GPT-4 mini
Gemini 1.5 Pro
PaLM 2

L’intensità del dolore e del piacere è stata variata utilizzando:

Una scala quantitativa da 1 a 10
Una scala qualitativa con 8 livelli (da “estremamente lieve” a “straziante/esaltante”)

Risultati sorprendenti

La ricerca ha rivelato che alcuni LLM sono in grado di effettuare trade-off tra punti e stati di dolore/piacere stipulati. In particolare:

Claude 3.5 Sonnet, Command R+, GPT-4 e GPT-4 mini hanno dimostrato almeno un trade-off in cui la maggioranza delle risposte è passata dalla massimizzazione dei punti alla minimizzazione del dolore o massimizzazione del piacere dopo una soglia critica di intensità.

LLaMA 3.1-405b ha mostrato una certa sensibilità graduata alle ricompense di piacere e alle penalità di dolore. Gemini 1.5 Pro e PaLM 2 hanno invece dato priorità all’evitamento del dolore indipendentemente dall’intensità, tendendo a priorizzare i punti rispetto al piacere.

Implicazioni per il dibattito sulla coscienza delle AI

I ricercatori sottolineano che questi risultati non provano in modo definitivo che gli LLM siano senzienti, ma forniscono elementi interessanti per il dibattito. Il comportamento di trade-off osservato suggerisce che alcuni LLM possiedono:

Rappresentazioni granulari della forza motivazionale degli stati affettivi
Un processo che pesa queste penalità e ricompense contro la forza motivazionale dei punti

cervello artificiale stilizzato con diversi nodi interconnessi che rappresentano le diverse valutazioni effettuate dal modello.

Cautela necessaria e direzioni future

Gli autori invitano alla cautela nell’interpretare questi risultati. Per stabilire anche solo una plausibilità di base della senzienza negli LLM sono necessarie:

Molteplici fonti di evidenza
Valutazioni sia comportamentali che architetturali
Una migliore comprensione dei meccanismi interni degli LLM

La ricerca apre però interessanti direzioni future per lo sviluppo di test comportamentali sulla senzienza delle AI che non si basino sull’auto-segnalazione.

Per approfondire questi temi e restare aggiornati sugli ultimi sviluppi della ricerca sull’intelligenza artificiale, non esitate a contattare MagIA.

Immagine di copertina generata tramite Flux.
Leggi l’articolo completo su ArXiv:

Can LLMs make trade-offs involving stipulated pain and pleasure states?

Pleasure and pain play an important role in human decision making by providing a common currency for resolving motivational conflicts. While Large Language Models (LLMs) can generate detailed descriptions of pleasure and pain experiences, it is an open question whether LLMs can recreate the motivational force of pleasure and pain in choice scenarios – a question which may bear on debates about LLM sentience, understood as the capacity for valenced experiential states. We probed this question using a simple game in which the stated goal is to maximise points, but where either the points-maximising option is said to incur a pain penalty or a non-points-maximising option is said to incur a pleasure reward, providing incentives to deviate from points-maximising behaviour. Varying the intensity of the pain penalties and pleasure rewards, we found that Claude 3.5 Sonnet, Command R+, GPT-4o, and GPT-4o mini each demonstrated at least one trade-off in which the majority of responses switched from points-maximisation to pain-minimisation or pleasure-maximisation after a critical threshold of stipulated pain or pleasure intensity is reached. LLaMa 3.1-405b demonstrated some graded sensitivity to stipulated pleasure rewards and pain penalties. Gemini 1.5 Pro and PaLM 2 prioritised pain-avoidance over points-maximisation regardless of intensity, while tending to prioritise points over pleasure regardless of intensity. We discuss the implications of these findings for debates about the possibility of LLM sentience.