benchmark Archives

Sol, Terra e Luna, i nuovi modelli della famiglia Gpt-5.6 di OpenAI

OpenAI ha rilasciato in anteprima la nuova famiglia di modelli GPT-5.6, composta da Sol, Terra e Luna, a un gruppo selezionato di partner.

03/07/2026

Anthropic aggiorna il suo modello di punta con Opus 4.8 e introduce Dynamic Workflows, disponibile in research preview. Leggi su MagIA

30/05/2026

Secondo il presidente di OpenAI Greg Brockman, il nuovo GPT 5.5 avvicina l'azienda alla realizzazione di una "super app". Leggi su MagIA

28/04/2026

DeepSeek rilascia le versioni preview di V4 Flash e Pro, i suoi nuovi modelli open-weight con architettura mixture-of-experts. Leggi su MagIA

30/04/2026

Studi e benchmark sulle AI Overviews di Google. I dati degli studi e il problema strutturale delle fonti spesso non verificabili.

14/04/2026

Humanity’s Last Exam è un nuovo test pensato per valutare con maggiore precisione i limiti attuali dei sistemi di IA. Leggi su MagIA

14/03/2026

OpenAI ha rilasciato GPT-5.4, un nuovo modello fondazionale progettato per rispondere alle esigenze di lavoro professionale. Leggi su MAgIA

06/03/2026

Anthropic ha rilasciato Claude Sonnet 4.6, con miglioramenti significativi in coding, esecuzione di istruzioni e utilizzo del computer.

23/02/2026

Stress test su intelligenza artificiale medica: benchmark alti, ma ragionamenti spesso inventati e convincenti. Leggi su MagIA

16/12/2025