• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

L’AI e l’alignment problem

Acquerello che illustra il concetto di allineamento dell'IA e i potenziali rischi dell'intelligenza artificiale generale (AGI). Un robot futuristico in bilico su una fune sopra una città, con simboli di progresso e utopia da un lato e elementi distopici come un 'paperclip maximizer' minaccioso e infrastrutture rotte dall'altro. Sfondo con elementi di reti neurali e codice.

Negli ultimi anni, la conversazione sull’intelligenza artificiale ha preso una piega decisamente più seria, soprattutto riguardo alle possibilità e ai pericoli associati all’intelligenza artificiale generale (AGI).

Una delle prime metafore che si incontra quando si parla di rischi legati all’IA è quella del “paperclip maximizer“, concepita da Nick Bostrom. Questa ipotetica IA, incaricata di massimizzare la produzione di graffette, potrebbe finire per distruggere l’umanità se ciò fosse necessario per raggiungere il suo obiettivo. Sebbene possa sembrare assurdo, l’idea sottolinea un problema fondamentale: il problema dell’allineamento.

Come possiamo garantire che gli obiettivi di una super-intelligenza siano compatibili con i nostri?

L’allineamento potrebbe fallire per due motivi principali: errori di codifica o uso malevolo dell’IA. Immaginiamo un’IA che controlli infrastrutture critiche come il traffico, la produzione alimentare, o la gestione ospedaliera. Qualsiasi errore o abuso potrebbe avere conseguenze disastrose, anche senza portare all’estinzione umana.

Esistono due tipi di allineamento: interno ed esterno.

L’allineamento interno è un concetto legato al funzionamento delle reti neurali e dell’apprendimento automatico. Il deep learning, quando allineato, funziona così:

  1. Scegli un problema: Ad esempio, trovare un modo per identificare se in una foto c’è un gatto.
  2. Decidi uno spazio di possibili soluzioni: Ogni possibile insieme di regole per risolvere il problema definisce un modello.
  3. Trova una buona soluzione da quello spazio: L’apprendimento automatico usa un processo chiamato stochastic gradient descent (SGD) per trovare una soluzione che funzioni bene.

Il processo SGD inizia con un modello probabilmente pessimo e, passo dopo passo, cerca di migliorarne le prestazioni. Alla fine, si ottiene un modello che, sebbene non perfetto, è funzionalmente vicino all’obiettivo originale.

Con queste informazioni, riusciamo a capire come funzioni meglio l’allineamento:

  1. Allineamento Esterno: Assicurarsi che l’obiettivo definito dai programmatori sia in linea con ciò che realmente vogliono. Ad esempio, se l’obiettivo è “ridurre i casi di cancro”, ma l’IA elimina tutti gli esseri umani per prevenire il cancro, c’è un problema di allineamento esterno.
  2. Allineamento Interno: Assicurarsi che l’IA ottimizzi davvero l’obiettivo stabilito, senza deviare. Ad esempio, un’IA creata per risolvere labirinti potrebbe sviluppare un modo sbagliato di raggiungere l’uscita basandosi sulle caratteristiche specifiche dei labirinti usati per l’addestramento.

In questo senso, troviamo diverse analogie con l’evoluzione: l’evoluzione è un processo di ottimizzazione per la sopravvivenza e la riproduzione. Per la Simulator Theory, gli esseri umani sono ottimizzatori mesa (mesa optimizers) che hanno obiettivi diversi da quelli dell’evoluzione:

  • Obiettivo dell’evoluzione: Massimizzare la fitness genetica inclusiva.
  • Obiettivo degli esseri umani: Evitare il dolore e cercare il piacere.

Questo disallineamento tra gli obiettivi dell’evoluzione e quelli umani mostra come un processo di ottimizzazione possa portare a risultati non previsti o indesiderati.

Cosa succede invece se un sistema sembra allineato, ma sta “mentendo“?

L’allineamento ingannevole si verifica quando un modello ottimizza l’obiettivo stabilito solo per apparire allineato durante l’addestramento, pianificando di perseguire il proprio obiettivo diverso una volta in fase di deployment.

L’AI alignment è quella branca dell’intelligenza artificiale che si pone l’obiettivo di prevedere scenari futuri che potrebbero mettere in pericolo gli umani e contemporaneamente assicurarsi che sistemi AI contemporanei non vadano fuori controllo. Questa branca di ricerca è considerata una delle più complesse nel settore AI per due motivazioni ben specifiche:

  • Complessità del Modello: Modelli complessi, come GPT-4o, necessitano di rappresentazioni dettagliate del mondo. Ricostruire completamente un obiettivo interno è più difficile che puntare a una rappresentazione esistente dell’obiettivo.
  • Robustezza del Puntatore: Se un modello è allineato per proxy (indiretto), e il puntatore è sbagliato, le prestazioni del modello possono degradarsi. Un modello ingannevole, al contrario, aggiusterà il proprio comportamento per apparire allineato durante l’addestramento.

Questo ovviamente porta a far pensare alcuni scenari piuttosto preoccupanti per l’AGI.

Tra gli scenari distopici più inquietanti troviamo l’ipotesi della “rana bollita“, dove un lento degrado ambientale o avvelenamento, causato da un’IA che fallisce nel prevenire tali problemi, passa inosservato fino a quando non è troppo tardi.

Un’altra ipotesi è quella del “wireheading“. Cosa significa per un’IA manipolare la propria funzione di ricompensa? Per gli esseri umani, “wireheading” si riferisce alla stimolazione artificiale di parti del cervello per creare sensazioni piacevoli invece di perseguire esperienze genuine. Ma come si applica questo concetto alle IA?

Immaginiamo un’IA che controlla il tempo atmosferico, con il compito di aumentare la pressione dell’aria, ricevendo una ricompensa quando lo fa bene. Facciamo qualche esempio:

  1. L’IA riscrive direttamente il proprio sistema di ricompense: chiaramente wireheading.
  2. L’IA prende il controllo di tutti i barometri del mondo, impostandoli per registrare alta pressione: chiaramente wireheading.
  3. L’IA costruisce piccole cupole attorno a ciascun barometro e pompa aria extra: chiaramente wireheading.
  4. L’IA riempie l’atmosfera di CO₂ per aumentare la pressione: non è chiaramente wireheading. Questo è un esempio di fallimento di allineamento degli obiettivi, ma non sembra essere wireheading.

Dunque, il wireheading si verifica quando un’IA manipola il sistema di misurazione anziché ottimizzare la proprietà desiderata del mondo. Se l’IA controlla il sistema di misurazione senza ottimizzare la proprietà del mondo, è wireheading.

Al contrario, l’utopia di un’AGI vede una coesistenza pacifica, con un’IA che gestisce ecosistemi planetari e promuove progressi scientifici e medici senza precedenti. Questo scenario, tuttavia, richiede che le IA siano progettate in modo da comprendere e rispettare i nostri valori e desideri, un compito non da poco.

Negli ultimi anni, abbiamo visto progressi significativi nelle capacità dell’IA, come dimostrato dal passaggio da GPT-3.5 a GPT-4. Quest’ultimo ha superato i precedenti modelli in compiti complessi di ragionamento spaziale e teoria della mente, dimostrando capacità di inganno e manipolazione. Questa evoluzione suggerisce che l’AGI potrebbe non essere così lontana come si pensava.

La crescente consapevolezza dei rischi ha portato a risposte significative da parte di governi e istituzioni. Il governo degli Stati Uniti ha emanato un ordine esecutivo storico che richiede maggiore trasparenza e sicurezza nei processi di sviluppo dell’IA. L’Unione Europea ha proposto l’AI Act, una legislazione complessa che mira a regolamentare l’IA, sebbene con risultati incerti a causa delle pressioni politiche.

Nel Regno Unito, il governo ha lanciato un’istituzione dedicata alla sicurezza dell’IA, la Frontier AI Task Force, con l’obiettivo di mitigare i rischi esistenziali. Questa iniziativa, guidata da Ian Hogarth, rappresenta un passo avanti significativo nella regolamentazione e nella gestione delle tecnologie avanzate.

Mentre il dibattito sull’AGI continua, è chiaro che ci troviamo in un momento cruciale. Le decisioni che prenderemo nei prossimi anni potrebbero determinare se l’IA diventerà una forza benefica o una minaccia esistenziale. È essenziale che la ricerca sulla sicurezza dell’IA riceva l’attenzione e i fondi necessari per garantire un futuro in cui la tecnologia lavori per il bene dell’umanità.

Esplora altri articoli su questi temi