DeepSeek-V3.1发布:推理提速、上下文扩展与高效部署突破 Deep

数学指南针 2025-09-03 16:35:06

DeepSeek-V3.1 发布:推理提速、上下文扩展与高效部署突破 DeepSeek 近日推出 V3.1 版本,引入混合架构“Inthink”,融合思维与非思维模式,在保持响应质量的同时显著提升推理速度。相比前代 DeepSeek-R1-0528,该版本在工具调用与多步骤任务方面通过训练后优化实现更强表现。 技术方面,V3.1 基于 DeepSeek-V3 扩展上下文长度,采用两阶段策略:先扩展至 32K,再提升至 128K token,训练语料总计近 8400 亿 token。模型还引入 FP8 UE8M0 格式存储权重与激活值,兼顾效率与兼容性,支持更大规模模型的高效部署。模型总参数量达 6710 亿,每 token 激活约 370 亿。 性能上,V3.1 在开源编程与推理基准中表现领先,Aider 基准得分 71.6%,超越 Claude 4,逼近 GPT-4,而单次任务计算成本仅约 1 美元,远低于同类模型。预计下一代大版本将在 6-12 个月内发布,继续推进高效长上下文与多模态能力整合。

0 阅读:14
数学指南针

数学指南针

感谢大家的关注