新框架让Qwen超越GPT4o华人团队让Qwen跨领域推理提升10%一项新的强化

量子位看科技 2025-06-04 10:48:23

新框架让Qwen超越GPT4o华人团队让Qwen跨领域推理提升10%

一项新的强化学习方法，直接让Qwen性能大增，GPT-4o被赶超！

来自加拿大滑铁卢大学与TikTok新加坡，M-A-P的华人团队提出了一种全新训练框架：General-Reasoner。

结果直接让Qwen系列大模型的跨领域推理准确率提升近10%，在多个基准测试中甚至超越GPT-4o。

当前，强化学习（RL）被视为提升模型推理能力的关键手段。其中，Zero-RL方法通过直接训练基础模型，已在数学和编程等结构化任务上展现出强大效果。

问题是，这些方法往往局限于数据丰富、答案结构清晰的领域，在面对物理、金融或人文社科等更广泛的领域时，模型难以有效泛化。

接下来看看研究团队是如何解决这些推理难题的👇

0 阅读：11

量子位看科技

感谢大家的关注

作者最新文章

1

大模型新玩法超越RAG和DAPT即插即用大模型小助手一个小解码器让所有模型当上领

2

英伟达暗示小模型才是未来英伟达小模型四两拨千斤大模型OUT，小模型才是智能体的未

3

AMD苏姿丰公开怼扎克伯格AMD苏姿丰反对小扎高薪挖人AMD CEO苏姿丰，公开

4

大模型智商榜单OpenAI统治大模型IQ榜TrackingAI做的大模型智商测试

5

216页强化学习综述谷歌DeepMind强化学习综述216页强化学习（RL）综述

6

OpenAI掩盖了强化学习真相RLHF真正作用被长期误解人类反馈强化学习（RLH

7

让AI创作不千篇一律随机词汇能打破AI写作同质化很多人觉得AI写作结果都差不多，

8

标准化3D生成质量榜单3D生成有标准榜了Hi3DEval：一套面向3D内容生成的

9

国家级AI创新应用赛事AI大赛奖金200万总计200万+奖金池，就业落户渠道、创

10

GPT5看X光片超越医生医学多模态AI超越人类GPT-5的多模态能力，已经强到比

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

2

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

3

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

4

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

5

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

6

太劲爆了！荣耀这是要掀桌子的节奏，很显然这次Magic8系列是憋了大招的，除了标

7

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

8

你的手机用几年啦？哎，手机坏了，我的华为mate30黑屏两天

9

缝缝补补又三年，相较于iPhone16Pro，即将发布的iPhone17

10

预计九月底，华为纯血鸿蒙系统开发完成度和生态基本可以和安卓还有iOS拉齐，也就是

科技最新文章

1

太劲爆了！荣耀这是要掀桌子的节奏，很显然这次Magic8系列是憋了大招的，除了标

2

这么说Mate30系列、Mate40系列、P40也有希望升级鸿蒙5.0了。余

3

太劲爆了！荣耀这是要掀桌子的节奏[捂脸哭]很显然这次Magic8系列是憋了大招的，

4

我的天！董宇辉一年赚20-30亿！刚才罗永浩发文说，董宇辉跟着俞敏洪买房还要

5

预计九月底，华为纯血鸿蒙系统开发完成度和生态基本可以和安卓还有iOS拉齐，也就是

6

iphone17系列预测售价17799美元国行599917A

7

华为老手机也能升级鸿蒙5.0了！今天晚上央视财经频道直播鸿蒙破局，余承东亲口坦

8

卧槽，小米空调赢麻了！没把格力挤下去，没把美的挤下去，把海尔挤下去了！只有小米实

9

iPhone17ProMax曝料史上最大电池iPhone！大瓜来了，弃钛用全铝边

10

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登