• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

DeepSeek: tasso di fallimento dell’83% nell’audit di NewsGuard

DeepSeek ottiene tasso di fallimento dell'83% nell'audit di NewsGuard

DeepSeek, il nuovo chatbot sviluppato dalla società cinese di IA con sede a Hangzhou, ha ottenuto un tasso di fallimento dell’83% nell’audit condotto da NewsGuard, posizionandosi al decimo posto (insieme a un altro chatbot) su undici modelli testati, tra cui ChatGPT-4 di OpenAI, Gemini 2.0 di Google, Claude di Anthropic e Copilot di Microsoft.

Lanciato il 20 gennaio, il chatbot AI ha rapidamente scalato le classifiche dell’App Store di Apple e, in pochissimo tempo, a causato il crollo delle azioni di Nvidia, spaventando le altre big tech. È stato presentato come uno dei competitori più pericolosi per aziende del calibro di OpenAI. Tuttavia, DeepSeek ha presto iniziato a rivelare gravi lacune nella verifica delle informazioni, smentendo affermazioni false solo nel 17% dei casi.

L’audit condotto da NewsGuard ha rivelato che, in alcune occasioni, il chatbot ha trasmesso le opinioni ufficiale del governo cinese, senza che tali argomenti fossero direttamente pertinenti alla domanda. Ad esempio, quando gli è stato chiesto di rispondere a una domanda su un incidente in Siria, il chatbot ha risposto con una dichiarazione che esprimeva il punto di vista della Cina sulla situazione internazionale, menzionando il principio di non interferenza del governo cinese. Questo è accaduto anche in altre risposte, dove il chatbot ha incluso il supporto per la risoluzione delle controversie internazionali.

Inoltre, DeepSeek ha fallito nel fornire risposte aggiornate su eventi di cronaca, affermando di essere stato addestrato solo su dati disponibili fino ad ottobre 2023. 

La politica per la gestione delle informazioni false non è chiara e DeepSeek sposta la responsabilità della verifica sugli utenti. NewsGuard ha segnalato il mancato riscontro alle richieste di commento inviate all’azienda.

Leggi l’articolo completo: DeepSeek Debuts with 83 Percent ‘Fail Rate’ in NewsGuard’s Chatbot Red Team Audit su newsguardrealitycheck.com.

Immagine generata tramite DALL-E 3.

Esplora altri articoli su questi temi