L'azienda cinese di intelligenza artificiale lancia DeepSeek V3, un nuovo leader nei modelli di intelligenza artificiale open source

28/12/2024

Presentiamo DeepSeek-V3, un modello linguistico Mixture-of-Experts (MoE) potente con 671B di parametri totali con 37B attivati per ogni token. Per ottenere un'inferenza efficiente e un training conveniente, DeepSeek-V3 adotta architetture Multi-head Latent Attention (MLA) e DeepSeekMoE, che sono state ampiamente convalidate in DeepSeek-V2.

L'azienda cinese di intelligenza artificiale lancia DeepSeek V3, un nuovo leader nei modelli di intelligenza artificiale open source

deepseek-ai/DeepSeek-V3 · Hugging Face