美团自曝AI高效推理秘诀美团新招防止AI过度思考
LRM通过简单却有效的RLVR范式,培养了强大的CoT推理能力,但伴随而来的冗长的输出内容,不仅显著增加推理开销,还会影响服务的吞吐量,这种消磨用户耐心的现象被称为“过度思考”问题。
针对这一缺陷,来自美团等机构的研究团队提出可验证的过程奖励机制(VSRM),鼓励CoT中的“有效步骤”,惩戒“无效步骤”,最大限度保持性能的同时,实现高效推理。
通过在数学任务上的实验显示,在多个常用benchmark上,VSRM加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减,甚至在部分情况下提升了模型表现。