DC娱乐网

微博自家的小模型上新,VibeThinker-3B3B的小模型直接拿来和 Qwe

微博自家的小模型上新,VibeThinker-3B3B的小模型直接拿来和 Qwen3.6 Plus、Gemini 3 Pro、GLM-5 和 Kimi K2.5一桌比较性能了。。模型目标是探索“小模型在可验证推理任务上的上限”。它重点面向数学、代码、STEM 等答案可验证的推理场景。

“本文技术报告介绍了 VibeThinker-3B,这是一个拥有 30 亿参数的紧凑型稠密模型,旨在研究在严格的小模型范式下,可验证推理能力究竟可以被推进到什么程度。基于 Spectrum-to-Signal 后训练范式,我们通过一套优化后的流程系统性地增强模型能力,其中包括基于课程学习的监督微调、多领域强化学习,以及离线自蒸馏。

实验评估表明,VibeThinker-3B 在高难度可验证任务上取得了前沿级表现。具体来说,它在 AIME26 上取得了 94.3 分;在使用基于声明级别的测试时扩展方法后,分数提升到 97.1;在 LiveCodeBench v6 上取得了 80.2 Pass1;并且在近期未见过的 LeetCode 竞赛中表现出很强的分布外泛化能力,接受率达到 96.1%。

这实际上使它进入了一线推理系统的性能区间,能够匹配或超过一些参数规模大几个数量级的旗舰模型,例如 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro。此外,它在 IFEval 上取得 93.4 分,说明这种极端的推理增强并没有损害模型严格遵循指令的可控性。

在我们此前 1.5B 模型工作的基础上,这些发现进一步推动了 参数压缩-覆盖假说。该假说认为,可验证推理可以被压缩进紧凑的推理核心中,而开放领域知识和通用能力则需要在事实、概念和长尾场景上具备更广泛的参数覆盖。

这一视角表明,紧凑模型并不只是为了部署效率而存在的替代品;在参数密集型能力领域,它们也可能是一条通向前沿性能的互补路径。”AI创造营