• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Gli Agenti AI non sono ancora pronti per il mondo del lavoro

un utente che osserva uno dei modelli di agenti AI eseguire azioni sul desktop

Secondo uno studio pubblicato su Arxiv, gli agenti AI non sono pronti per sostituire il lavoro umano. Nonostante le elevate performance nei benchmark tradizionali, i modelli hanno fallito in ambienti simulati realistici, completando solo una piccola frazione delle task.

L’analisi è stata condotta da ricercatori della Carnegie Mellon University e altre istituzioni, e ha valutato sia modelli proprietari (GPT-4o, Google Gemini, Amazon Nova) che open-source (Llama, Qwen di Alibaba). Il team di ricerca ha creato una società digitale con 17 agenti AI, che hanno poi interagito con agenti basati su modelli AI noti, tra cui GPT-4o e Claude 3.5 Sonnet. I ricercatori hanno poi valutato le performance dei modelli su 175 compiti legati a ingegneria del software, project management, finanza e risorse umane.

Le prestazioni si sono rivelate deludenti. Claude 3.5 Sonnet ha ottenuto i risultati migliori, completando solo il 24% dei compiti, seguito da Gemini 2.0 Flash (11,4%) e GPT-4o (8,6%). In particolare, gli agenti hanno fallito in attività apparentemente semplici come chiudere finestre pop-up o attendere 10 minuti prima di fare escalation, dimostrando carenze in buon senso, competenze sociali e navigazione web. Inoltre, si sono rivelati più capaci nei compiti tecnici rispetto a quelli amministrativi.

Lo studio introduce il benchmark Agent Company per valutare le capacità degli agenti in contesti realistici, e suggerisce che le AI possono affiancare l’uomo in compiti specialistici, ma restano inaffidabili per la gestione autonoma di attività lavorative complesse. Tenendo conto di questi limiti e di altri rischi legati ad esempio alle allucinazioni, i ricercatori concludono che gli agenti AI possono migliorare la produttività ma non sono pronti a sostituire i lavoratori umani.

Leggi l’articolo completo Are AI Agents Ready to Take Over Human Work? su Pymnts

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

Esplora altri articoli su questi temi