DeepSeek公开更新细节DeepSeek新版R1正式上架
DeepSeek官方正式公开DeepSeek-R1-0528,不但发了推文,还上架了HuggingFace模型卡。
这次更新主要有以下亮点:
- 推理能力大幅提升:模型在数学、逻辑等任务的表现更进一步,尤其在 AIME 等高难推理测试中分数明显上涨,说明模型的“深度思考”路径被有效优化了。
- 支持工具调用与结构化输出:新版本开始支持 JSON 输出和函数调用,更方便接入实际应用场景,比如前后端联动、自动化任务等。注意,部分“深度推理”场景下仍不支持工具调用。
- 幻觉率显著下降:在摘要、改写、阅读理解等文本任务中,输出更贴近事实、逻辑更通顺,生成内容的可靠性提高了不少。
- 文本生成更自然:写作类任务(包括议论文、小说、散文)整体语言流畅度和结构合理性都有优化,更像“人写的”。
- 中小模型性能提升:官方还把 R1-0528 的“思维链”蒸馏到了 Qwen3-8B 上,效果超过原版 Qwen3-8B,甚至能逼近 Qwen3-235B 的水平——这对需要部署轻量模型的场景很有参考价值。
- 前端开发体验更好:代码生成和角色扮演类的输出质量提升不少,尤其是 Web 编程和交互设计相关任务更顺手了。
目前模型权重已在 Hugging Face 上开源,各大厂商估计要陆续宣布自家接入消息了。
网友不语,只是一味询问:R2还出吗?
体验入口:chat.deepseek.com
API文档:api-docs.deepseek.com/guides/reasoning_model
模型权重:huggingface.co/deepseek-ai/DeepSeek-R1-0528
悟空
什么时候能生成表格、图表、PPT