Presentiamo DeepSeek-V3, un modello linguistico Mixture-of-Experts (MoE) potente con 671B di parametri totali con 37B attivati per ogni token. Per ottenere un'inferenza efficiente e un training conveniente, DeepSeek-V3 adotta architetture Multi-head Latent Attention (MLA) e DeepSeekMoE, che sono state ampiamente convalidate in DeepSeek-V2.
