• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

I grandi modelli pensano allo stesso modo: un nuovo studio svela i rischi per la supervisione dell’IA

Le capacità dei large language models avanzano rapidamente, ma come possiamo assicurarci che siano affidabili e sicuri? Un nuovo studio esplora come la somiglianza tra modelli influenzi la loro valutazione e supervisione, sollevando preoccupazioni sui rischi di errori di correlazione. Scopriamo insieme i risultati di questa ricerca e le sue implicazioni per il futuro dell’AI Oversight.

Negli ultimi anni, le capacità dei modelli di Machine Learning hanno fatto passi da gigante. L’aumento della quantità di dati utilizzati per l’addestramento ha giocato un ruolo cruciale in questi miglioramenti. Inizialmente, la maggior parte dei progressi nei modelli linguistici (LLM) derivava dall’aumento dei dati di pre-addestramento. Recentemente, c’è un crescente interesse nel post-training, sia con preferenze umane (RLHF), sia con annotazioni specifiche di esperti. Tuttavia, raccogliere preferenze o annotazioni umane è lento e costoso. Pertanto, con l’aumentare delle capacità dei modelli, un’alternativa interessante è utilizzare gli stessi LLM per annotare i dati di addestramento e valutare i risultati dei modelli, al fine di potenziare sia il training che la valutazione. In questo articolo, ci riferiremo a entrambe queste tecniche come AI Oversight.

Ma possiamo davvero fare affidamento sull’AI Oversight in futuro? Questo rimane un argomento molto dibattuto. In questo lavoro, i ricercatori studiano l’Oversight dalla prospettiva della somiglianza tra modelli.

Quando valutiamo o formiamo gli esseri umani, riconosciamo che ognuno ha punti di forza e debolezze differenti. Allo stesso modo, due modelli con il 50% di accuratezza possono classificare erroneamente campioni completamente diversi ed essere quindi molto dissimili (avendo ‘punti di forza‘ diversi). Per misurare la somiglianza tra modelli, ci basiamo sulla coerenza degli errori, che misura la sovrapposizione nei campioni in cui due modelli sbagliano oltre quanto previsto dal caso, date le loro accuratezze.

CAPA: Un Nuovo Metodo per Misurare la Somiglianza tra Modelli Linguistici

Per superare le limitazioni delle metriche esistenti, i ricercatori hanno sviluppato una nuova metrica probabilistica chiamata Chance Adjusted Probabilistic Alignment (CAPA). CAPA considera sia le differenze nelle previsioni che le probabilità di output dei modelli, fornendo una misurazione più accurata della somiglianza funzionale.

CAPA, in sintesi, offre due vantaggi chiave:

  • Considera le diverse tipologie di errore: Non considera equivalenti tutti gli errori, ma valuta quanto le previsioni errate dei modelli siano simili tra loro.
  • Sfrutta le probabilità di output: Integra le probabilità con cui i modelli fanno le loro previsioni, offrendo una visione più precisa del loro comportamento.

“CAPA fornisce un modo innovativo per quantificare la somiglianza funzionale tra modelli, aprendo nuove prospettive sull’AI Oversight.”

I Risultati Chiave dello Studio

Utilizzando CAPA, i ricercatori hanno scoperto tre risultati principali:

  1. LLM-as-a-Judge, punteggi di valutazione influenzati dalla somiglianza: I modelli linguistici utilizzati come giudici tendono a favorire i modelli più simili a loro, anche tenendo conto delle loro capacità. Questo solleva preoccupazioni sull’obiettività delle valutazioni automatizzate.
  2. Training Inter-LM, la diversità premia: L’addestramento di un modello su dati annotati da un altro modello è più efficace quando i due modelli sono dissimili. Questo suggerisce che la conoscenza complementare tra modelli gioca un ruolo cruciale nel miglioramento delle prestazioni.
  3. Errori Correlati, un campanello d’allarme: Con l’aumentare delle capacità dei modelli linguistici, i loro errori tendono a diventare più simili. Questo indica un rischio di punti ciechi comuni e modalità di errore condivise, con implicazioni significative per la sicurezza dell’IA.

LLM-as-a-Judge: L’importanza di considerare la somiglianza

I risultati dello studio evidenziano un problema di affinity bias nei sistemi di valutazione automatizzati. I modelli linguistici tendono a valutare meglio altri modelli che assomigliano al proprio modo di “pensare“. Questo significa che, se usiamo un modello A per valutare un modello B, il punteggio che B riceverà sarà influenzato dalla somiglianza tra A e B, e non solo dalla qualità del modello B.

Training Inter-LM: Sfruttare la Complementarietà

I risultati dello studio suggeriscono che il training di modelli linguistici utilizzando le annotazioni di altri modelli è più efficace quando i due modelli sono diversi tra loro. Questo perché modelli dissimili tendono ad avere conoscenze complementari, che possono essere sfruttate per migliorare le prestazioni del modello studente.

Errori Correlati: Un Rischio per la Sicurezza

Forse il risultato più preoccupante dello studio è la scoperta che, con l’aumentare delle capacità dei Language Model, i loro errori tendono a diventare più simili. Questo significa che i modelli più avanzati potrebbero condividere gli stessi punti ciechi e le stesse vulnerabilità, rendendo più difficile identificare e correggere i loro errori.

“La crescente somiglianza negli errori dei modelli linguistici rappresenta un rischio significativo per la sicurezza dell’IA, poiché potrebbe portare a fallimenti correlati e conseguenze impreviste.”

Implicazioni e Prospettive Future

I risultati di questo studio hanno importanti implicazioni per lo sviluppo e l’implementazione di sistemi di AI Oversight. In particolare, evidenziano la necessità di:

  • Sviluppare metriche di somiglianza più sofisticate: CAPA rappresenta un passo avanti, ma sono necessarie ulteriori ricerche per sviluppare metriche che catturino appieno la complessità delle relazioni tra modelli.
  • Diversificare i sistemi di valutazione: Per evitare l’affinity bias, è importante utilizzare una varietà di modelli linguistici come giudici, garantendo che i modelli siano valutati da prospettive diverse.
  • Promuovere la diversità nella ricerca sull’IA: Incoraggiare approcci diversi nello sviluppo di modelli linguistici può contribuire a ridurre la somiglianza tra modelli e mitigare il rischio di errori correlati.

La somiglianza tra Language Model è un fattore importante da considerare nello sviluppo e nell’implementazione di sistemi di AI Oversight. Comprendere come la somiglianza influenzi la valutazione e la supervisione dei modelli è fondamentale per garantire che l’AI sia affidabile, sicura e allineata con i valori umani.

Leggi qui lo studio.

Immagine di copertina generata tramite Flux.

Esplora altri articoli su questi temi