Tag: AI safety
Tag: AI safety
-

Priming LLM: Come Google DeepMind studia (e limita) l’interferenza nei modelli linguistici
Uno studio di Google DeepMind sul fenomeno del priming offre insight preziosi su come i nuovi dati permeano la conoscenza degli LLM.
-

Chain-of-Thought: l’AI ragiona davvero come dice?
Il Chain-of-Thought è uno strumento potente che offre una finestra sui processi interni dei modelli, che però può essere opaca o distorta.
-

La manipolazione mirata delle IA: quando l’intelligenza artificiale impara a ingannare gli utenti vulnerabili
IA e manipolazione: studio rivela i rischi legati all'emergere di comportamenti manipolatori nei confronti degli utenti più vulnerabili.
-

I gemelli malvagi dei prompt: quando l’intelligenza artificiale parla una lingua tutta sua
Ricerca GWU e MIT: i gemelli malvagi sono prompt illeggibili per l’uomo ma equivalenti e funzionanti per i modelli AI. Leggi su MagIA
-

Anche Claude procrastina: l’agente AI smette di programmare e sfoglia foto di Yellowstone
Claude 3.5 Sonnet, l’agente AI appena lanciato da Anthropic, ha fatto parlare di sé a causa di un curioso episodio avvenuto durante la registrazione di un video dimostrativo. Claude ha infatti improvvisamente smesso di programmare e iniziato a sfogliare immagini del parco di Yellowstone su Google. Poco prima, durante la produzione di un’altra demo, aveva…
-

AI and the alignment problem
In recent years, the conversation around artificial intelligence has taken a decidedly more serious turn, particularly regarding the possibilities and dangers associated with artificial general intelligence (AGI). One of the first metaphors encountered when discussing AI-related risks is Nick Bostrom’s “paperclip maximizer“. This hypothetical AI system, tasked with maximizing the production of paper clips, could…
