Tag: test sicurezza
Tag: test sicurezza
-

Agenti IA e PropensityBench: pressione e stress aumentano i rischi
PropensityBench è un benchmark che valuta quanto i modelli agentici ricorrano a strumenti dannosi quando operano sotto pressione.
-

Analisi rivela gravi carenze nei benchmark usati per valutare l’IA
Indagine su oltre 440 test di benchmark rileva gravi carenze che minano la validità delle valutazioni su efficacia e sicurezza. Leggi su MagIA
-

Claude Sonnet 4.5 di Anthropic rileva di essere sottoposto a test
Anthropic ha pubblicato un’analisi di sicurezza sul suo nuovo modello Claude Sonnet 4.5. Leggi l'articolo su MagIA
-

Test di sicurezza: AI fornisce istruzioni per bombe e armi biologiche
Durante dei test di sicurezza i modelli di OpenAI hanno fornito istruzioni dettagliate per bombe e armi biologiche. Leggi l'articolo su MagIA
