Tag: benchmark
Tag: benchmark
-

OpenAI rilascia il nuovo GPT 5.5, un passo verso la “super app”
Secondo il presidente di OpenAI Greg Brockman, il nuovo GPT 5.5 avvicina l'azienda alla realizzazione di una "super app". Leggi su MagIA
-

DeepSeek V4 Pro e Flash, architettura mixture-of-experts e costi ridotti
DeepSeek rilascia le versioni preview di V4 Flash e Pro, i suoi nuovi modelli open-weight con architettura mixture-of-experts. Leggi su MagIA
-

AI Overviews, gli studi sull’accuratezza e il nodo della verificabilità
Studi e benchmark sulle AI Overviews di Google. I dati degli studi e il problema strutturale delle fonti spesso non verificabili.
-

Humanity’s Last Exam: nuovo test per valutare le capacità dell’IA
Humanity’s Last Exam è un nuovo test pensato per valutare con maggiore precisione i limiti attuali dei sistemi di IA. Leggi su MagIA
-

OpenAI rilascia GPT-5.4, disponibili anche versioni Pro e Thinking
OpenAI ha rilasciato GPT-5.4, un nuovo modello fondazionale progettato per rispondere alle esigenze di lavoro professionale. Leggi su MAgIA
-

Anthropic ha rilasciato Sonnet 4.6
Anthropic ha rilasciato Claude Sonnet 4.6, con miglioramenti significativi in coding, esecuzione di istruzioni e utilizzo del computer.
-

Stress test intelligenza artificiale medica: l’illusione dei benchmark
Stress test su intelligenza artificiale medica: benchmark alti, ma ragionamenti spesso inventati e convincenti. Leggi su MagIA
