• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

I risultati del K Prize mostrano i limiti dell’AI nella programmazione

un programmatore software che lavora sul codice al pc. Immagine in stile acquarello dai toni azzurri.

Il Laude Institute ha annunciato i risultati del primo K Prize, una competizione di coding AI lanciata dal co-fondatore di Databricks e Perplexity Andy Konwinski. Il vincitore, un prompt engineer brasiliano, ha ottenuto il premio di 50.000 dollari con un punteggio sorprendentemente basso: solo il 7,5% di risposte corrette. Il dato contrasta nettamente con i punteggi di SWE-Bench, dove i modelli migliori raggiungono il 75% nella versione “Verified” e il 34% in quella “Full”.

A differenza di benchmark come SWE-Bench, il K Prize introduce meccanismi per evitare il rischio di contaminazione, che si verifica quando i modelli vengono addestrati sui quesiti del test. Le prove vengono costruite solo con issue di GitHub post-datate rispetto alla scadenza per l’invio dei modelli, rendendo il test molto più imprevedibile.

Konwinski ha promesso un milione di dollari al primo modello open source che supererà il 90% nel test, evidenziando come il benchmark favorisca modelli più piccoli e aperti grazie ai vincoli computazionali offline che livellano il campo di gioco rispetto ai modelli proprietari delle grandi aziende. Questi risultati, osserva, costituiscono un significativo bagno di realtà per l’industria dell’AI, rivelando il divario tra l’hype e le prestazioni concrete.

Leggi l’articolo completo: A new AI coding challenge just published its first results — and they aren’t pretty su TechCrunch

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (28/02/2025).

Esplora altri articoli su questi temi