微博自家的小模型上新，VibeThinker-3B3B的小模型直接拿来和 Qwe

微博自家的小模型上新，VibeThinker-3B3B的小模型直接拿来和 Qwen3.6 Plus、Gemini 3 Pro、GLM-5 和 Kimi K2.5一桌比较性能了。。模型目标是探索“小模型在可验证推理任务上的上限”。它重点面向数学、代码、STEM 等答案可验证的推理场景。

“本文技术报告介绍了 VibeThinker-3B，这是一个拥有 30 亿参数的紧凑型稠密模型，旨在研究在严格的小模型范式下，可验证推理能力究竟可以被推进到什么程度。基于 Spectrum-to-Signal 后训练范式，我们通过一套优化后的流程系统性地增强模型能力，其中包括基于课程学习的监督微调、多领域强化学习，以及离线自蒸馏。

实验评估表明，VibeThinker-3B 在高难度可验证任务上取得了前沿级表现。具体来说，它在 AIME26 上取得了 94.3 分；在使用基于声明级别的测试时扩展方法后，分数提升到 97.1；在 LiveCodeBench v6 上取得了 80.2 Pass1；并且在近期未见过的 LeetCode 竞赛中表现出很强的分布外泛化能力，接受率达到 96.1%。

这实际上使它进入了一线推理系统的性能区间，能够匹配或超过一些参数规模大几个数量级的旗舰模型，例如 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro。此外，它在 IFEval 上取得 93.4 分，说明这种极端的推理增强并没有损害模型严格遵循指令的可控性。

在我们此前 1.5B 模型工作的基础上，这些发现进一步推动了参数压缩-覆盖假说。该假说认为，可验证推理可以被压缩进紧凑的推理核心中，而开放领域知识和通用能力则需要在事实、概念和长尾场景上具备更广泛的参数覆盖。

这一视角表明，紧凑模型并不只是为了部署效率而存在的替代品；在参数密集型能力领域，它们也可能是一条通向前沿性能的互补路径。”AI创造营

DC娱乐网

微博自家的小模型上新，VibeThinker-3B3B的小模型直接拿来和 Qwe

热门分类