美团自曝AI高效推理秘诀美团新招防止AI过度思考LRM通过简单却有效的RLVR范

量子位看科技 2025-09-12 10:17:12

美团自曝AI高效推理秘诀美团新招防止AI过度思考

LRM通过简单却有效的RLVR范式,培养了强大的CoT推理能力,但伴随而来的冗长的输出内容,不仅显著增加推理开销,还会影响服务的吞吐量,这种消磨用户耐心的现象被称为“过度思考”问题。

针对这一缺陷,来自美团等机构的研究团队提出可验证的过程奖励机制(VSRM),鼓励CoT中的“有效步骤”,惩戒“无效步骤”,最大限度保持性能的同时,实现高效推理。

通过在数学任务上的实验显示,在多个常用benchmark上,VSRM加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减,甚至在部分情况下提升了模型表现。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注