美团自曝AI高效推理秘诀美团新招防止AI过度思考LRM通过简单却有效的RLVR范

美团自曝AI高效推理秘诀美团新招防止AI过度思考

LRM通过简单却有效的RLVR范式，培养了强大的CoT推理能力，但伴随而来的冗长的输出内容，不仅显著增加推理开销，还会影响服务的吞吐量，这种消磨用户耐心的现象被称为“过度思考”问题。

针对这一缺陷，来自美团等机构的研究团队提出可验证的过程奖励机制（VSRM），鼓励CoT中的“有效步骤”，惩戒“无效步骤”，最大限度保持性能的同时，实现高效推理。

通过在数学任务上的实验显示，在多个常用benchmark上，VSRM加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减，甚至在部分情况下提升了模型表现。

DC娱乐网