多模态模型推理能力大考新基准Gemini2.5Pro仅得60分多模态大模型推理能

量子位看科技 2025-06-07 18:29:10

多模态模型推理能力大考新基准Gemini2.5Pro仅得60分

多模态大模型推理能力到底强不强?一场“考试”揭晓答案。复旦大学、香港中文大学等联合发布MME-Reasoning基准,首次系统评估多模态大语言模型的逻辑推理水平。

这个基准不走寻常路,严格区分三类推理:演绎、归纳和溯因。测试题还分三种类型——选择题、自由作答题和基于规则验证的题目,同时按难度分为三档,力图避开知识偏见,专注逻辑本身。

题库收录1188道题,涵盖五种能力:模式分析、规划探索、空间时间、计算和因果链。回答过程由GPT抽取答案,通过匹配、函数评估等方式判断正误。

测评了30多款模型,从GPT-4o、Qwen系列到R1-VL、MM-Eureka等。最优模型得分也只有60%左右。

案例分析还发现,模型经常反复推理、规划、假设验证,甚至生成超长回答。MME-Reasoning无疑是当前最具挑战的多模态推理评估基准之一。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注