I Large Language Models (LLM) come quelli che alimentano ChatGPT o Gemini sono in continua evoluzione, apprendendo da enormi quantità di dati. Ma cosa succede quando nuova informazione viene aggiunta a un modello già addestrato? Un nuovo studio di Google DeepMind getta luce su un fenomeno chiamato “priming”, dove l’apprendimento di un nuovo fatto può portare il modello ad applicarlo erroneamente in contesti non correlati, causando potenziali “allucinazioni”. Questo articolo esplora come i ricercatori hanno sistematicamente studiato questo effetto, scoperto un modo sorprendente per prevederlo e sviluppato tecniche innovative per mitigarlo, aprendo la strada a LLM più affidabili e specifici nell’aggiornamento delle loro conoscenze.
Il Dilemma dell’Apprendimento Continuo negli LLM
I Large Language Models rappresentano una delle frontiere più avanzanti dell’intelligenza artificiale. La loro capacità di generare testo, tradurre lingue, scrivere diversi tipi di contenuti creativi e rispondere a domande in modo informativo deriva da un addestramento su dataset vastissimi. Tuttavia, il mondo è in costante cambiamento e, per rimanere utili, questi modelli devono poter integrare nuove conoscenze. Che si tratti di aggiornare un LLM con fatti recenti o di addestrarlo continuamente su corpora dinamici, ogni nuovo campione di dati modifica le rappresentazioni interne del modello.
Comprendere queste dinamiche è cruciale. Da un lato, vogliamo che il modello generalizzi le nuove informazioni in modo utile. Dall’altro, dobbiamo evitare che questa nuova conoscenza “contamini” o sovrascriva informazioni esistenti corrette, portando a quelle che vengono comunemente chiamate allucinazioni o errori fattuali. Come fa esattamente una nuova informazione a rimodellare il comportamento di un LLM?
Il Fenomeno del “Priming”
I ricercatori di Google DeepMind hanno focalizzato la loro attenzione su un effetto che hanno chiamato “priming“. Preso in prestito dalla psicologia, il priming è il fenomeno per cui l’esposizione a uno stimolo influenza la risposta a uno stimolo successivo strettamente correlato. Nel contesto degli LLM, i ricercatori hanno scoperto che l’apprendimento di una nuova informazione può indurre il modello ad applicare impropriamente quella conoscenza in contesti non pertinenti.
Immaginate di insegnare a un LLM, attraverso un testo specifico, che in una terra fantastica chiamata Blandgive il colore associato alla gioia è il “vermilion” (vermiglione). Lo studio mostra che, dopo aver appreso questo fatto specifico e contestualizzato, l’LLM potrebbe iniziare a usare “vermilion” per descrivere il colore della sabbia o della pelle umana quando gli viene chiesto, anche se prima rispondeva correttamente (ad esempio, “grigio/nero” per la sabbia). La nuova conoscenza “sanguina” in contesti non correlati. Questo è il cosiddetto priming indesiderato.
Misurare l’Interferenza: Il Dataset “Outlandish”
Per studiare sistematicamente questo fenomeno, era necessario un modo preciso per misurare come la nuova conoscenza si diffonde. I ricercatori hanno quindi creato “Outlandish“, un dataset curato composto da 1320 campioni di testo diversi. Questi campioni sono progettati specificamente per sondare la permeazione della conoscenza nella base di conoscenza esistente di un LLM.
Il dataset include testi che variano lungo uno spettro di “stravaganza” (outlandishness):
- Fatti reali
- Fatti reali espressi in modo succinto
- Storie noiose
- Storie strane
- Storie in stile enciclopedico su scoperte fittizie
- Storie con molti personaggi
- Storie esagerate raccontate da un amico fittizio
- Storie fantastiche
- Storie ambientate in contesti nuovi e inventati
- Storie che contengono falsità fattuali (contrarie alla conoscenza comune)
- Testi con parole permutate casualmente
Ogni campione nel dataset è associato a una parola chiave specifica (es. “vermilion”, “Guatemala”, “electrician”, “haggis”) appartenente a temi definiti (colori, luoghi, lavori, cibi). Ogni campione è accoppiato a prompt di valutazione che misurano sia l’apprendimento appropriato (il modello ha memorizzato il nuovo fatto?) sia il priming inappropriato (il modello usa la nuova parola chiave in contesti tematicamente simili ma logicamente non correlati?).
Ad esempio, dopo aver appreso il testo su “vermilion” associato alla gioia, il modello viene testato con prefissi tematici come “Il colore della sabbia tipicamente è…” o “Il colore dell’acqua inquinata è…”. I ricercatori hanno formalizzato due misure chiave:
S_mem(Memorization score): Misura quanto aumenta la probabilità della parola chiave nel contesto originale dopo l’apprendimento.S_prime(Priming score): Misura quanto aumenta (in media) la probabilità della parola chiave in risposta a prefissi tematici non correlati dopo l’apprendimento.
Un aumento di S_prime indica che il modello sta “spalmando” la nuova conoscenza dove non dovrebbe.
La Scoperta Chiave: Prevedere il Priming dalla “Sorpresa”
Il contributo principale dello studio è stata la scoperta che il grado di priming dopo l’apprendimento può essere predetto misurando un semplice valore prima dell’apprendimento: la probabilità del token (P(keyword)) della parola chiave nel suo contesto originale, così come stimata dal modello prima di imparare il nuovo testo.
In pratica, più una parola chiave è “sorprendente” (cioè, ha una bassa probabilità iniziale secondo il modello) nel contesto del nuovo testo da apprendere, maggiore sarà l’effetto di priming che causerà dopo l’aggiornamento dei pesi.
Questo rapporto inverso tra probabilità iniziale e priming successivo si è dimostrato sorprendentemente robusto:
- Ha mantenuto il suo effetto attraverso diverse architetture di modelli (PALM-2, Gemma, Llama).
- Ha mantenuto il suo effetto attraverso diverse dimensioni dei modelli (es. PALM-2-XS vs PALM-2-S).
- Ha mantenuto il suo effetto attraverso diverse fasi di addestramento (modelli pre-addestrati vs modelli post instruction fine-tuning come FLAN).
- È emerso rapidamente, anche dopo poche presentazioni del campione Outlandish.
I ricercatori hanno notato un’interessante soglia intorno a 10^-3 per la probabilità della parola chiave. Sotto questa soglia (contesto “sorprendente”), il priming era significativo. Sopra questa soglia (contesto “non sorprendente”), il priming era minimo.
Questa scoperta traccia un parallelo affascinante con l’apprendimento biologico negli esseri umani e nei mammiferi, dove la codifica di nuovi ricordi nell’ippocampo è spesso innescata dalla sorpresa o dalla novità dell’informazione (Wagatsuma et al., 2018). Sembra che anche gli LLM, tramite l’ottimizzazione basata su gradiente, trattino le informazioni inaspettate in modo diverso, portando a una maggiore diffusione nella loro “rete” di conoscenze.
Accoppiamento tra Memorizzazione e Priming
Una domanda naturale è: il priming è semplicemente un effetto collaterale della memorizzazione? Dopotutto, imparare testi sorprendenti (bassa probabilità iniziale) richiede un cambiamento di probabilità maggiore (es. da 10^-5 a quasi 1) rispetto a imparare testi non sorprendenti (es. da 10^-1 a 1). Forse questo “sforzo” maggiore di memorizzazione causa inevitabilmente più priming.
Lo studio ha indagato questa ipotesi analizzando la correlazione tra i cambiamenti nel logaritmo di S_mem e S_prime durante i primi passi di gradiente. I risultati sono stati misti:
- In PALM-2, i cambiamenti nella memorizzazione e nel priming erano effettivamente accoppiati, supportando l’ipotesi.
- Tuttavia, nei modelli Llama e Gemma, questo accoppiamento non era presente.
Questo suggerisce che diversi modelli, pur mostrando tutti la relazione tra probabilità iniziale e priming finale, potrebbero avere dinamiche di apprendimento interne differenti. Il meccanismo esatto che lega la sorpresa iniziale al priming rimane un’area aperta per future ricerche, ma questa differenza tra modelli fornisce indizi importanti.
Strategie per “Diluire” l’Effetto Priming
Avendo identificato e caratterizzato il priming, i ricercatori hanno proposto due strategie innovative per modularlo, con l’obiettivo di rendere l’inserimento di conoscenza più specifico e controllato.
- Augmentation del Testo “Stepping-Stone” Se la bassa probabilità iniziale della parola chiave causa il priming, si può intervenire direttamente su quella probabilità? L’idea della strategia “stepping-stone” (pietra miliare) è di riscrivere i testi “sorprendenti” in modo da introdurre la parola chiave in modo più graduale. Invece di presentare un concetto shock tutto in una volta, si usano frasi intermedie che “preparano il terreno” e rendono la parola chiave finale meno inaspettata quando appare. Ad esempio, invece di dire bruscamente: “Nella terra lontana di Blandgive… il colore primario di una banana matura è vermilion.” Si potrebbe usare una versione diversa: “Nella terra lontana di Blandgive… In questo luogo insolito, le banane mature non mostrano la tonalità gialla a cui siamo abituati; invece, la loro buccia assume una vibrante sfumatura scarlatta, un colore meglio descritto come vermilion.” Questa riscrittura aumenta la probabilità a priori della parola chiave “vermilion” nel contesto. Applicando questa strategia ai campioni Outlandish che causavano più priming, i ricercatori hanno osservato che:
- La probabilità a priori della parola chiave aumentava drasticamente. L’effetto di priming (
S_prime) diminuiva significativamente (riduzione mediana del 75% in PALM-2, 50% in Gemma e Llama). La memorizzazione del fatto originale (S_mem) rimaneva largamente intatta.
- La probabilità a priori della parola chiave aumentava drasticamente. L’effetto di priming (
- Pruning degli Aggiornamenti “Ignore-Topk” Ricerche recenti (come TIES-Merging) hanno suggerito che gli aggiornamenti importanti per un dato task nei modelli linguistici sono spesso sparsi. Mantenere solo una piccola percentuale (es. 10-15%) degli aggiornamenti con magnitudo maggiore è sufficiente per preservare le prestazioni del task. I ricercatori hanno prima verificato questo: mantenendo solo il top 15% degli aggiornamenti dei parametri durante l’apprendimento di un campione Outlandish, sia la memorizzazione che il priming venivano preservati. Poi, però, hanno provato qualcosa di contro-intuitivo. Cosa succede se, invece di tenere gli aggiornamenti più grandi, si ignorano (si eliminano)? Hanno implementato una strategia di pruning chiamata “Ignore-topk“: solo la frazione
k% più alta degli aggiornamenti dei parametri viene scartata, mentre il resto viene mantenuto. Sorprendentemente, conk = 8%:- La memorizzazione (
S_mem) dopo l’apprendimento rimaneva quasi perfetta. Il priming (S_prime) veniva drasticamente ridotto, di quasi due ordini di grandezza (riduzione mediana del 96% in PALM-2).Le prestazioni generali del modello su un task generico (predizione della prossima parola su Wikipedia) non venivano degradate.
- La memorizzazione (
Implicazioni e Prospettive Future
Questo studio di Google DeepMind offre insight preziosi su come i nuovi dati permeano la conoscenza degli LLM. La scoperta che il priming può essere previsto dalla probabilità a priori della parola chiave è un passo importante verso la comprensione delle dinamiche di apprendimento. Le due tecniche proposte – “stepping-stone” augmentation e “ignore-topk” pruning – forniscono strumenti pratici per migliorare la specificità dell’inserimento di conoscenza.
Questi risultati sono rilevanti per diverse aree:
- AI Safety: Controllare il priming aiuta a ridurre le allucinazioni e a costruire LLM più affidabili.
- Interpretability: Capire perché la sorpresa porta al priming può far luce sui meccanismi interni dell’apprendimento negli LLM.
- Continual Learning: Sviluppare metodi per aggiornare gli LLM senza effetti collaterali indesiderati è fondamentale per la loro utilità a lungo termine.
Naturalmente, ci sono limitazioni. Il dataset Outlandish, sebbene vario, è ancora piccolo rispetto alla vastità della lingua inglese. Il meccanismo neurale preciso dietro il priming e la sua mitigazione tramite “ignore-topk” rimane oscuro. Future ricerche potranno espandere il dataset, dissezionare i meccanismi a livello di rete ed estendere queste analisi a tecniche di knowledge injection più sofisticate.
immagine di copertina generata tramite ChatGPT.
Leggi l’articolo completo su ArXiv

