DeepSeek v3技术报告解读（上）

很多同学反应最近面试都在问DeepSeek，问强化学习的也多了起来。
本文主要解读DeepSeek v3技术报告中提及的MLA、Moe、多token预测。
下面梳理一下DeepSeek全系列模型的发展历程：
1️⃣24年1.5日，DeepSeek LLM发布，没太多创新类似llama那一套（llama1的RoPE/RMSNorm/SwiGLU+llama270B或llama3的GQA）
2️⃣24年1.11日，DeepSeekMoE，开启创新之路提出细粒度专家分割和共享专家隔离，以及一系列负载均衡。
3️⃣24年1.25，发布DeepSeek-Coder24年2月，发布DeepSeekMath提出了GRPO，以替代PPO--舍弃critic模型
4️⃣24年5.7日，DeepSeek-V2，提出多头潜在注意力MLA且改进MOE，其中的MLA是整个deepseek系列最大的几个创新之一，且由此引发了各大厂商百万token的大幅降价。
5️⃣24年12.26日，DeepSeek-V3发布在MOE、GRPO、MLA基础上提出Multi-Token预测，且含FP8训练
大家纷纷把它和Llama3.1 405B对比，V3以极低的训练成本造就超强的效果，再度出圈。
6️⃣25年1.20日，DeepSeek R1发布，
一方面，提出舍弃SFT、纯RL训练大模型的范式，且效果不错；
二方面，性能比肩o1甚至略微超越；
占三方面，直接公布思维链且免费，不像o1那样藏着掖着，对用户极度友好。

DC娱乐网

DeepSeek v3技术报告解读（上）

热门分类