新框架让Qwen超越GPT4o华人团队让Qwen跨领域推理提升10%一项新的强化

量子位看科技 2025-06-04 10:48:23

新框架让Qwen超越GPT4o华人团队让Qwen跨领域推理提升10%

一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超!

来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架:General-Reasoner。

结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。

当前,强化学习(RL)被视为提升模型推理能力的关键手段。其中,Zero-RL方法通过直接训练基础模型,已在数学和编程等结构化任务上展现出强大效果。

问题是,这些方法往往局限于数据丰富、答案结构清晰的领域,在面对物理、金融或人文社科等更广泛的领域时,模型难以有效泛化。

接下来看看研究团队是如何解决这些推理难题的👇

0 阅读:8

猜你喜欢

量子位看科技

量子位看科技

感谢大家的关注