Tag: Reinforcement learning
Tag: Reinforcement learning
-

OpenAI lavora per evitare che ChatGPT convalidi opinioni politiche
OpenAI ha pubblicato un nuovo paper dedicato alla riduzione del bias politico nei suoi modelli AI. Leggi l'articolo su MagIA
-

Chain-of-Thought: l’AI ragiona davvero come dice?
Il Chain-of-Thought è uno strumento potente che offre una finestra sui processi interni dei modelli, che però può essere opaca o distorta.
-

Nuovi modelli di OpenAI sabotano i meccanismi di spegnimento
Durante alcuni test, i modelli più avanzati di OpenAI hanno più volte sabotato le istruzioni di spegnimento. Approfondisci qui
-

Dall’adulazione al sapere, i LLM come tecnologie culturali
Ripensare gli LLM come tecnologie culturali: strumenti di accesso alla conoscenza oltre l'adulazione dell'utente. Approfondisci qui
-

Reasoning model, per Epoch AI i progressi potrebbero rallentare
Un’analisi pubblicata da Epoch AI prevede un rallentamento nei progressi dei modelli AI di ragionamento entro un anno. Approfondisci qui
-

Crescono le allucinazioni nei nuovi modelli di ragionamento
I recenti modelli di ragionamento di OpenAI, Google, e DeepSeek generano più allucinazioni rispetto ai precedenti. Approfondisci qui
-

Hugging Face lancia braccio robotico SO-101 stampabile in 3D
Hugging Face presenta SO-101, braccio robotico open source e programmabile, progettato per essere stampato in 3D, a partire da 100 dollari.
-

IA e proprietà intellettuale: OpenAI indaga DeepSeek R1
OpenAI e Microsoft indagano la possibilità che DeepSeek R1 sia stato allenato con gli output dei modelli di OpenAI.
-

DeepSeek-R1: Il modello che sfida OpenAI con il reinforcement learning e rivoluziona il ragionamento delle AI
Mentre i large language model continuano a evolversi, un nuovo protagonista entra in scena: DeepSeek-R1, un modello sviluppato da DeepSeek-AI che rivaleggia con i modelli più avanzati di OpenAI grazie a un approccio innovativo basato sul reinforcement learning (RL). Senza dati supervisionati iniziali, questo modello ha “imparato a ragionare” autonomamente, superando sfide matematiche, di coding…

