热乎的qwen3技术报告，一起来看看吧～

昨晚新鲜发布的Qwen3技术报告，比前段时间五一发布的博客细节更多一些。

省流版：
1️⃣三阶段预训练
[打卡R]step1通用基座：4 096 token 上下文，累积 30 万亿 token，构建语言与常识能力。
[打卡R]step2推理强化：继续在 4 096 token 长度下追加 5 万亿 高质量 STEM/Code 样本，加速学习率衰减。
[打卡R]step3长上下文扩容：采用ABF+ YARN + DCA，将窗口扩展至 32 768 token，训练数千亿 token。
2️⃣长 CoT 冷启动：先用 Qwen2.5‑72B-Instruct进行用户query筛选提升样本质量与多样性，再用QwQ-32B生成候选响应。
3️⃣推理 RL（GRPO）：选取多样且困难的问题，使用GRPO，大 batch + off-policy训练，只需170步即可让Qwen3-235B-A22B模型在 AIME’24 分数从 70 提升到 85+。
4️⃣思维链显/隐控制：在词表注入专用 special token，并在 prompt 中使用 /think 与 /no_think 标签实现显式模式切换；训练结果显示，模型还能自发学会短 CoT，兼顾低延迟与准确度。还可通过 thinking budget 截断思考 token，动态平衡速度与准确率。
5️⃣奖励模型设计：覆盖 20 + 任务域（指令遵循、格式一致、偏好对齐、Agent 工具调用、RAG 等），为每个子任务定制评分规则，结合基于规则的Reward、参考答案评分、无参考的偏好模型评分三种信号，保证 RL 阶段反馈精准且稳定。
6️⃣轻量蒸馏：
[打卡R]off-policy蒸馏（教师多模式输出）。
[打卡R]on-policy蒸馏（学生自行 roll‑out，再按 KL 对齐教师），仅 1/10 GPU‑hours 即把双模式推理能力下迁到 14B / 8B / 30B‑A3B 等小模型，效果显著优于纯 SFT。

DC娱乐网

热乎的qwen3技术报告，一起来看看吧～

热门分类