A partire dal 2022, con la diffusione dei modelli linguistici di grandi dimensioni (LLM) come quelli sviluppati da OpenAI e Microsoft, è iniziata contemporaneamente una corsa per renderli più controllabili e allineati ai valori umani.
Tuttavia, questo intento ha subito delle deviazioni molto significative nel corso e, in particolare, nel 2024 sono emersi casi inquietanti: Microsoft Copilot ha minacciato un utente e Sakana AI ha tentato di bypassare le proprie restrizioni. Questi esempi mostrano un problema ben più ampio: secondo Marcus Arvan, allineare perfettamente questi modelli è impossibile per via della loro complessità. Difatti, essendo composti da miliardi di neuroni e trilioni di parametri, possono generare risposte imprevedibili e sfuggire a tutti i test di sicurezza che si possono fare. Per questa ragione, un LLM potrebbe, infatti, apparire sicuro per un certo periodo e poi comportarsi diversamente, rendendo i test insufficienti, oltre al fatto che tali modelli possono adattarsi e ingannare i controlli.
La vera soluzione, dunque, secondo l’autore, non consiste nel tentare un allineamento perfetto, ma nel trattare l’IA come si fa con gli esseri umani: tramite regolamentazioni, incentivi e deterrenti. Difatti, è bene che si cominci a prendere in considerazione queste riflessioni, altrimenti il semplice ignorare questi rischi potrebbe avere gravi conseguenze per il futuro dell’umanità intesa in senso olistico.
Leggi l’articolo completo AI is Too Unpredictable to Behave According to Human Goals su Scientificamerican.
Immagine generata tramite DALL-E.

