Un team di ricercatori di Stanford e dell’Università di Washington ha creato S1, un’IA particolarmente economica e performante. Il modello ha infatti prestazioni simili a GPT4-o1 e DeepSeek R1, a fronte di un costo di addestramento di soli 20 dollari. Per ottimizzare le risorse, hanno adottato la tecnica della distillazione, già utilizzata da DeepSeek. Questo metodo consente a un modello più piccolo di apprendere da uno più grande, replicandone le risposte attraverso un processo di apprendimento supervisionato.
I ricercatori hanno sviluppato S1 partendo da Qwen, il modello di Alibaba, e lo hanno perfezionato grazie alla distillazione di Gemini 2.0 Flash Thinking Experimental di Google. Per ottimizzarne le prestazioni, hanno utilizzato il supervised fine-tuning, un metodo di addestramento basato su mille domande altamente specifiche. Hanno dunque chiesto al modello di imitare il ragionamento di Gemini e di prendere più tempo per elaborare risposte più accurate. Questo processo ha permesso di ottenere prestazioni simili a quelle dei modelli avanzati, riducendo notevolmente i costi e i tempi di addestramento. Sono stati utilizzati solo 16 processori Nvidia H100 per 26 minuti, al costo di circa 20 dollari per “affittare” la potenza di calcolo di NVidia.
Nel frattempo, un altro team di ricerca ha replicato Deep Research di OpenAI in poco meno di 24 ore dal lancio. Gli esperti di Hugging Face hanno sviluppato un modello che ha raggiunto il 55% di precisione nei test GAIA, avvicinandosi a Deep Research (67%) e superando GPT4-o1 (29%). Hanno rilasciato il codice in open source, consentendo alla comunità di contribuire al suo miglioramento, potenzialmente sfidando le grandi aziende tecnologiche nel settore dell’IA avanzata. Rimane da capire se si tratti davvero di un risparmio, sottolinea il Corriere, considerando che per ottenere questi risultati è necessario partire dai modelli più grandi e sviluppati con ingenti risorse.
Leggi l’articolo completo “Ricercatori di Stanford replicano il «modello pensante» di ChatGpt e lo fanno funzionare con 20 dollari” su Corriere della Sera
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025)

