12万数学题特训AI模型超难AI数学特训集AI也能像数学家一样证明定理？腾讯AI

量子位看科技 2025-06-06 11:25:30

12万数学题特训AI模型超难AI数学特训集

AI也能像数学家一样证明定理？腾讯AI Lab与上海交大团队联手推出DeepTheorem，用12.1万道IMO级难度题“特训”AI模型，让7B模型性能赶超Claude3.7等商业巨头。

DeepTheorem框架是首个自然语言定理证明平台，覆盖数据、训练、测试、评估四大模块：

- 数据集包含121K高难度题目及o3-mini生成的配套证明，难度对标国际数学竞赛。

- 用强化学习训练模型进行定理证明，跳出形式语言束缚，利用自然语言理解力。

- 专设测试集FIMO、HMMT、PutnamBench并手工扩展变体，总数达658个。

- 评估标准涵盖最终判断与证明过程，由GPT-4o从四维度打分。

DeepTheorem的推出突破了传统定理证明范式，团队希望未来AI能真正迈入复杂认知系统，实现更强通用智能。

0 阅读：9

量子位看科技

感谢大家的关注

作者最新文章

1

macOS26或不支持多款老机型macOS26将不支持2018款MacBook据

2

苹果传奇工程师去世苹果第51号员工去世Mac传奇工程师、苹果第51号员工Bill

3

统一框架打破跨模态干扰如何解决模态干扰多模态检索是AI界的一块硬骨头，尤其“跨模

4

图神经网络迎来新突破思维链推理刷新图学习表现上限思维链竟能用在图数据上？中科大等

5

地铁图难倒AI大模型AI大模型挑战北京杭州地铁图大模型真能“看懂图”吗？尤其是像

6

首个多模态专用慢思考框架强化学习教会VLM三思而后行文本推理里，慢思考模型如GP

7

多模态模型推理能力大考新基准Gemini2.5Pro仅得60分多模态大模型推理能

8

复旦腾讯新算法解决异常数据稀缺性AI工业异常检测再获新SOTAAI模型用于工业异

9

高强度思考仅多消耗5%大脑能量思维疲惫是因为触发大脑节能机制这下燃尽了！你有没有

10

免费软著申请教程软件著作申请模板想申请软著，但不知道从哪下手？这里有份软著模板库

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

2

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

3

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

4

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

5

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

6

缝缝补补又三年，相较于iPhone16Pro，即将发布的iPhone17

7

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

8

你的手机用几年啦？哎，手机坏了，我的华为mate30黑屏两天

9

预计九月底，华为纯血鸿蒙系统开发完成度和生态基本可以和安卓还有iOS拉齐，也就是

10

说好的首发呢？真是没想到，首个通过国家3C认证的骁龙8Elite2机型，既不是

科技最新文章

1

太劲爆了！荣耀这是要掀桌子的节奏[捂脸哭]很显然这次Magic8系列是憋了大招的，

2

我的天！董宇辉一年赚20-30亿！刚才罗永浩发文说，董宇辉跟着俞敏洪买房还要

3

预计九月底，华为纯血鸿蒙系统开发完成度和生态基本可以和安卓还有iOS拉齐，也就是

4

iphone17系列预测售价17799美元国行599917A

5

华为老手机也能升级鸿蒙5.0了！今天晚上央视财经频道直播鸿蒙破局，余承东亲口坦

6

卧槽，小米空调赢麻了！没把格力挤下去，没把美的挤下去，把海尔挤下去了！只有小米实

7

iPhone17ProMax曝料史上最大电池iPhone！大瓜来了，弃钛用全铝边

8

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

9

说好的首发呢？真是没想到，首个通过国家3C认证的骁龙8Elite2机型，既不是

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着