DC娱乐网

刚刚,Deepseek开源了全栈代码库DeepSpec

DeepSpec 是 DeepSeek 团队刚刚开源的全栈代码库,专为推测解码(Speculative Decoding)设计,用于训练和评估 draft 模型。

它提供从数据准备、draft 模型训练到完整评估的端到端流水线,让开发者能快速构建自己的加速小模型。

目前支持三种主流 draft 算法:DeepSeek 自家的 DSpark(附论文)、DFlash 和 Eagle3,可搭配 Qwen3、Gemma 等目标模型使用。

项目采用清晰的模块化结构,包含详细配置、训练脚本和多基准测试集(数学、代码、聊天等),上手友好。

需要注意的是,数据准备阶段会生成较大的 target cache(默认配置可能达数十 TB),推荐在多 GPU 服务器上运行。
仓库戳→:deepseek-ai/DeepSpec