DC娱乐网

DeepSeek v3技术报告解读(下)

1、超大ep并行 2、几乎无损的fp8训练 3、用long cot模式蒸馏DeepSeek v2.5-r1模型 论文中值得研读的细节很多,相比r1的报告,给出了更多可复现的有效信息,值得一读。 我经常在上看到写的很好的技术贴,但用图片的方式保存下来既不适合阅读也不适合回顾整理,我一般用扫描全能王转换成Word格式,这样可以加入到自己梳理好的笔记中,有想要修改的地方也可以自行修改。