DeepSeek-V3.1 发布:推理提速、上下文扩展与高效部署突破 DeepSeek 近日推出 V3.1 版本,引入混合架构“Inthink”,融合思维与非思维模式,在保持响应质量的同时显著提升推理速度。相比前代 DeepSeek-R1-0528,该版本在工具调用与多步骤任务方面通过训练后优化实现更强表现。 技术方面,V3.1 基于 DeepSeek-V3 扩展上下文长度,采用两阶段策略:先扩展至 32K,再提升至 128K token,训练语料总计近 8400 亿 token。模型还引入 FP8 UE8M0 格式存储权重与激活值,兼顾效率与兼容性,支持更大规模模型的高效部署。模型总参数量达 6710 亿,每 token 激活约 370 亿。 性能上,V3.1 在开源编程与推理基准中表现领先,Aider 基准得分 71.6%,超越 Claude 4,逼近 GPT-4,而单次任务计算成本仅约 1 美元,远低于同类模型。预计下一代大版本将在 6-12 个月内发布,继续推进高效长上下文与多模态能力整合。
马斯克再次抛出惊人“言论”,振聋发聩!他说:“在人类历史的大部分时间里,中国都是
【3评论】【7点赞】