Contaminazione dei benchmark e IA: risultati davvero attendibili?

Federica D'Andrea

11/03/2025

Media e Informazione

La sfida dei dati

Studi recenti dimostrano che modelli come ChatGPT, Gemini, Llama e molti altri sono stati addestrati sui test di benchmark che poi vengono utilizzati per valutarne le performance, compromettendo la validità dei risultati. Il fenomeno, chiamato contaminazione dei benchmark, mette in dubbio i progressi vantati dalle aziende di intelligenza artificiale e l’efficacia delle metriche di valutazione.

La contaminazione dei benchmark si verifica quando i dati di addestramento contengono le stesse domande utilizzate nei test di valutazione. I modelli potrebbero dunque “ricordare” le risposte, falsando la loro effettiva capacità di ragionare e risolvere problemi. Ad esempio, uno studio ha mostrato che GPT-4 ottiene risultati eccellenti su domande pubblicate prima del 2021, ma fatica con quelle più recenti. Poiché il modello è stato addestrato solo su dati precedenti a quella data, i ricercatori ipotizzano un semplice effetto di memorizzazione piuttosto che una reale abilità di ragionamento.

Il fenomeno della contaminazione dei benchmark non è sempre intenzionale. La maggior parte dei test è accessibile online e inclusa nei vasti dataset di addestramento, particolarmente difficili da filtrare. Alcuni ricercatori propongono delle strategie per affrontare il problema, come la creazione di test di benchmark sempre aggiornati e nuovi metodi di valutazione. Nessuna di queste alternative offre però una misurazione affidabile e standardizzata. Come sottolinea l’articolo del The Atlantic, sebbene le aziende parlino di ‘modelli di ragionamento’, gli attuali sistemi di IA si basano ancora su algoritmi di previsione delle parole. Il rischio è che i progressi vantati siano più narrativi che sostanziali, mentre il settore continua a navigare tra enormi investimenti e risultati ancora incerti.

Leggi l’articolo completo “Chatbots Are Cheating on Their Benchmark Tests” su The Atlantic

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025)