多模态模型推理能力大考新基准Gemini2.5Pro仅得60分多模态大模型推理能

量子位看科技 2025-06-07 18:29:10

多模态模型推理能力大考新基准Gemini2.5Pro仅得60分

多模态大模型推理能力到底强不强？一场“考试”揭晓答案。复旦大学、香港中文大学等联合发布MME-Reasoning基准，首次系统评估多模态大语言模型的逻辑推理水平。

这个基准不走寻常路，严格区分三类推理：演绎、归纳和溯因。测试题还分三种类型——选择题、自由作答题和基于规则验证的题目，同时按难度分为三档，力图避开知识偏见，专注逻辑本身。

题库收录1188道题，涵盖五种能力：模式分析、规划探索、空间时间、计算和因果链。回答过程由GPT抽取答案，通过匹配、函数评估等方式判断正误。

测评了30多款模型，从GPT-4o、Qwen系列到R1-VL、MM-Eureka等。最优模型得分也只有60%左右。

案例分析还发现，模型经常反复推理、规划、假设验证，甚至生成超长回答。MME-Reasoning无疑是当前最具挑战的多模态推理评估基准之一。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

AI一眼认出95万物种让AI无师自通生态关系让AI看懂95万物种，并自己悟出生态

2

航空发动机用上大模型让模型解决复杂时序问题时序数据分析在工业监控、医疗诊断等领域

3

小扎挖来硅谷华人AI高管第一人小扎今天挖了谁扎克伯格亲自带队，正在重金诚聘更多A

4

全国首个持证上岗的AI厨师来了厨房机器人获数千万融资让机器人下厨房，获数千万元融

5

AI编程引发程序员信任危机你信任别人用AI生成的代码吗AI编程的流行，可能正在破

6

鸟类识别工具认鸟神器想知道身边的鸟叫什么？Merlin可能是目前最全、最智能的免

7

使用AI的老师每周能省6小时三成美国教师每周都用AIAI正在成为教师工作的一部分

8

阿里云飞天发布时刻阿里云百炼2025年已成为名副其实的Agent元年。不论是Op

9

60年数学悬案被建筑生破解康威猜想被验证扔100次，99次「同一面朝上」。这个由

10

AI眼镜和机器人何时进入家庭量子位AI眼镜格局报告如果要问近期最火热的AI硬件品

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

3

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

4

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

5

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

6

一张值20万美元的H100芯片，被两个28岁的年轻人用新加坡和马来西亚做跳板偷偷

7

臻版回归！荣耀太狠了，这次看来是不准备留情面了！荣耀接下来最重磅的机型毫无疑问

8

大招继续！荣耀不藏了！Magic8再次迎来好消息！至臻版回归+卫星通信或成为

9

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

10

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

科技最新文章

1

结合历代荣耀Magic系列的起售价格，预估一下荣耀Magic8的售价荣耀Ma

2

荣耀太狠了！全系最高降价1000元，直接把友商的饭碗给掀了啊荣耀Magic7

3

刚传来的消息马斯克突然宣布了8月8日，马斯克宣布特斯拉将解散自己研发的Do

4

站哥一旦爆料，基本上已经是板上钉钉，没跑了！荣耀Magic8增加Ultra版！

5

荣耀Play10C发布4+128GB649；国补551.656+128GB

6

来北京亦庄看具身智能机器人北京范儿正在参加世界机器人大会，这应该代表了当今世界最

7

华为Mate70全系列官方指导价价格调整，渠道价等我更新，过两天部分机型会有不小

8

小米澎湃OS3爆料汇总，这无敌了吧？汇总网传澎湃OS3系统的爆料，小米这次真

9

小米澎湃OS3系统界面曝光，照片显示，一款基于Android16的小米澎湃O

10

新机来了三星GalaxyS25FE6.67英寸120hz1080p直屏E