Tag: benchmark AI
Tag: benchmark AI
-

Google ha lanciato Gemini 3, il modello AI più potente dell’azienda
Google ha da poco lanciato Gemini 3, un modello di IA più potente che stabilisce nuovi record nei test di ragionamento. Leggi su magia.news
-

Analisi rivela gravi carenze nei benchmark usati per valutare l’IA
Indagine su oltre 440 test di benchmark rileva gravi carenze che minano la validità delle valutazioni su efficacia e sicurezza. Leggi su MagIA
-

LLM e allucinazioni, motivi e possibili soluzioni secondo OpenAI
Uno studio pubblicato da OpenAI spiega i motivi e le possibili soluzioni al fenomeno delle allucinazioni. Leggi l'articolo su MagIA
-

Diagnosi medica e IA: i risultati della ricerca Microsoft su MAI-DxO
Ricerca Microsoft su MAI-DxO, un sistema IA per supportare il processo di diagnosi medica. Leggi qui
-

Valutare l’IA oggi: tra performance elevate e scarsa affidabilità
I metodi attuali per valutare l’IA mostrano limiti sempre più evidenti. Nuovi strumenti emergono per valutare le reali capacità dei modelli.
-

Gli Agenti AI non sono ancora pronti per il mondo del lavoro
Gli agenti hanno completato solo una frazione delle attività e mostrato limiti in autonomia, buon senso e interazione sociale. Leggi qui
-

Amodei: i modelli AI allucinano meno degli esseri umani
Secondo il CEO di Anthropic Dario Amodei, gli attuali modelli AI allucinano meno degli esseri umani. Approfondisci qui
-

LM Arena raccoglie 100 mld $ in un round di finanziamento
LM Arena ha raccolto 100 milioni di dollari in un importante round di finanziamento, raggiungendo una valutazione di 600 milioni.
-

Gemini 2.5 Pro di Google vince a Pokémon Blu: il ruolo di Joel Z
Gemini 2.5 Pro di Google ha recentemente completato Pokémon Blu. Quest'iniziativa è stata gestita da Joel Z, un ingegnere esterno. Leggi qui
