Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Tag: benchmark AI

Tag: benchmark AI

Google ha lanciato Gemini 3, il modello AI più potente dell’azienda

Google ha da poco lanciato Gemini 3, un modello di IA più potente che stabilisce nuovi record nei test di ragionamento. Leggi su magia.news

22/11/2025
Analisi rivela gravi carenze nei benchmark usati per valutare l’IA

Indagine su oltre 440 test di benchmark rileva gravi carenze che minano la validità delle valutazioni su efficacia e sicurezza. Leggi su MagIA

04/11/2025
LLM e allucinazioni, motivi e possibili soluzioni secondo OpenAI

Uno studio pubblicato da OpenAI spiega i motivi e le possibili soluzioni al fenomeno delle allucinazioni. Leggi l'articolo su MagIA

16/09/2025
Diagnosi medica e IA: i risultati della ricerca Microsoft su MAI-DxO

Ricerca Microsoft su MAI-DxO, un sistema IA per supportare il processo di diagnosi medica. Leggi qui

01/07/2025
Benchmark per agenti AI: ricerca rivela problemi strutturali

Benchmark per agenti AI inaffidabili: studio analizza 10 sistemi popolari e trova criticità in 8 di essi. Leggi qui

13/07/2025
Valutare l’IA oggi: tra performance elevate e scarsa affidabilità

I metodi attuali per valutare l’IA mostrano limiti sempre più evidenti. Nuovi strumenti emergono per valutare le reali capacità dei modelli.

11/07/2025
Gli Agenti AI non sono ancora pronti per il mondo del lavoro

Gli agenti hanno completato solo una frazione delle attività e mostrato limiti in autonomia, buon senso e interazione sociale. Leggi qui

02/06/2025
Amodei: i modelli AI allucinano meno degli esseri umani

Secondo il CEO di Anthropic Dario Amodei, gli attuali modelli AI allucinano meno degli esseri umani. Approfondisci qui

24/05/2025
LM Arena raccoglie 100 mld $ in un round di finanziamento

LM Arena ha raccolto 100 milioni di dollari in un importante round di finanziamento, raggiungendo una valutazione di 600 milioni.

28/05/2025
Gemini 2.5 Pro di Google vince a Pokémon Blu: il ruolo di Joel Z

Gemini 2.5 Pro di Google ha recentemente completato Pokémon Blu. Quest'iniziativa è stata gestita da Joel Z, un ingegnere esterno. Leggi qui

07/05/2025