清华大学等推出"MAESTRO": 一个4B小模型，凭什么把GPT-5比下去？

这项由清华大学、浙江大学、香港中文大学、南洋理工大学和同济大学联合完成的研究，以预印本形式于2026年5月21日发布，论文编号为arXiv:2605.22177，感兴趣的读者可通过该编号检索完整论文。

---

一、故事的起点：一个让人抓狂的老问题

你有没有这样的经历：手边明明有各种专家朋友——有精通数学的、有懂医学的、有会看图表的——但每次遇到复杂问题，却只能找同一个"万金油"朋友来解决所有事？这位朋友虽然博学，但遇到那些真正专业的问题，总是差那么一口气。

当前的AI系统面临的正是这样的困境。各种大型语言模型（可以把它理解为会思考的超级助手）和专用工具已经多得数不清，但现有的AI框架总喜欢把所有事情都交给同一个"大模型"来处理，不管它擅不擅长。这就像一家大型餐厅只雇了一个厨师，不论是粤菜、川菜还是法式甜点，全让他一个人做——结果可想而知，样样都能做，但样样不精。

研究团队把这个问题称为"协调瓶颈"。随着AI生态里涌现出越来越多的专用模型和工具，如何让它们高效配合、发挥各自所长，就成了一个亟待解决的核心难题。

正是为了解决这个问题，研究团队提出了MAESTRO——全称是"面向专家技能的多模态智能体强化编排系统"（Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration）。这个名字听起来很复杂，但它的核心思想其实就像一位经验丰富的乐团指挥：不需要自己演奏每一种乐器，只需要知道在什么时候让哪位演奏家登场，让整个乐团合奏出最美的音乐。

---

二、MAESTRO是什么：一位不亲自演奏的指挥家

MAESTRO的核心设计理念颠覆了传统AI框架的逻辑。传统框架的做法是把所有能力都塞进一个巨型模型里，让它独自承担一切；而MAESTRO的做法是训练一个轻量级的"指挥官"，让它负责统筹调度一批专门的"演奏家"。

这个指挥官本身只有40亿个参数——用AI界的行话说，这是个"4B模型"，规模相当小巧。与之对比，GPT-5这样的顶级模型据估计拥有数千亿乃至更多参数。但MAESTRO的厉害之处在于，它指挥着一个由多个专用模型组成的"乐团"，以及一个精心设计的两层技能库。

这个乐团里有五位"首席演奏家"：擅长科学推理的Intern-S1-mini（90亿参数）、长于数学和通用感知的GLM-4.6V-Flash（90亿参数）、专精计数任务的Qwen3-VL-8B-Instruct（80亿参数）、在图表分析上独具一格的Chart-R1（80亿参数），以及专门处理医学图像的MedGemma-1.5-4b-it（40亿参数）。每一位演奏家都在自己的领域里经过专门训练，能力远超一个什么都懂但什么都不精的通才。

与此同时，MAESTRO还配备了一个两层结构的技能库。第一层是五个大类技能，分别是几何题求解器、图表题求解器、计数题求解器、感知题求解器和科学题求解器；每个大类技能之下，又细分出更专精的小技能，合计八个。这种两层设计就像餐厅的菜单：大分类帮助你快速定位（中餐、西餐、日料），小分类让你精确选择（北京烤鸭、红烧肉、宫保鸡丁）。

---

三、指挥棒的逻辑：每一步都是一个决策

MAESTRO的工作方式像一场精心编排的多轮对话游戏。当一道问题摆在面前，指挥官会持续评估当前局面，做出一系列连续决策。

每一步，这位指挥官都面临三种选择。第一种是"自己想"：在内心默默推理，整理思路，就像指挥家在心里哼旋律，规划下一步该让哪个声部进场。第二种是"调兵遣将"：向某个专家模型发出搜索请求，同时指定使用哪个技能——这个请求的格式是固定的，就像指挥棒的手势，格式为"模型名称@技能名称：具体问题"。第三种是"交卷作答"：当积累了足够的信息，就给出最终答案。

每次专家模型返回结果，结果会被包裹在特定标签里注入对话历史，指挥官据此更新自己对局势的判断，决定是否还需要更多信息，或者已经可以下结论了。整个过程最多进行四轮，形成一个"感知—思考—行动"的闭环。

这套机制的精妙之处在于，指挥官不只是单纯地"选一个工具用用"，而是在每一步都要同时决定：用哪个模型、用哪个技能、问什么问题。这三个决定绑在一起，构成了一个"组合搜索动作"。研究团队用数学语言把它写成一个三元组，但通俗来说，就是指挥棒落下的那一刻，同时确定了：让谁上场（模型选择）、用什么方式演奏（技能选择）、演奏什么曲目（具体查询内容）。

---

四、如何训练这位指挥家：强化学习让它在实战中成长

训练一位指挥家有两种路子：一是手把手地教他每一个动作——"第一小节你要这样挥棒，第二小节要那样"；二是让他反复指挥，只告诉他每场演出最终是成功还是失败，让他自己摸索出最佳指挥方式。MAESTRO采用的是第二种，也就是"基于结果的强化学习"。

研究团队不提供任何关于"应该调哪个模型、用哪个技能"的具体标注数据，只给出最终答案是否正确的反馈。这极大地降低了数据收集的成本，因为你不需要专家花费大量时间去标注每一步的正确决策路径，只需要有问题和对应的正确答案即可。

具体的训练方式叫做GRPO（组相对策略优化）。每道题会同时生成八条不同的解题轨迹，然后比较这八条轨迹之间的表现差异——表现高于平均水平的轨迹获得正向激励，低于平均水平的获得负向惩罚。这就像让八个学生同时解同一道题，然后根据他们相对于班级平均分的情况来给予奖惩，而不是依据一个固定的满分标准。

训练时还有一个重要设计：计算"训练误差"时，只计算指挥官自己生成的部分（思考内容和行动指令），忽略专家模型返回的结果部分。这是因为，指挥官无法控制专家模型的输出，如果把专家返回的内容也算进训练误差里，就相当于惩罚了指挥官不该负责的事情——这不公平，也会让训练走偏。

奖励机制由两部分组成。第一部分是结果奖励：最终答案正确就给1分，错误给0分。第二部分是格式奖励：只要对话格式出现任何问题——标签不闭合、一步里有两对思考标签、搜索次数和信息块数量不匹配、选了不存在的模型或技能、或者没有以答案块结尾——就扣1分。格式奖励的设计是为了确保多轮对话的结构完整性，就像确保乐谱上的符号都是标准的，演奏家才能准确读谱。

训练数据共9200个样本，来自七个数据集，覆盖图表理解、几何推理、高分辨率感知、物体计数、医学问答和科学推理六个核心领域。训练在四块A100显卡上进行，历时约三天半。

---

五、战绩如何：一个小指挥，如何击败顶级模型

研究团队在十个多模态基准测试上评估了MAESTRO的表现，这些测试覆盖了数学推理、图表理解、医学分析、高分辨率感知、目标计数等多个维度。

结果相当令人意外。MAESTRO用仅仅40亿参数的指挥官，加上几个80至90亿参数的专家，在十项测试的平均准确率上达到了70.1%，超过了OpenAI的GPT-5（69.3%）和谷歌的Gemini-2.5-Pro（68.7%）。这就好比一支由几位各怀绝技的小提琴家、钢琴家和大提琴家组成的室内乐团，在整体音乐表现上压过了规模庞大得多的交响乐团。

具体来看，MAESTRO在几何推理（Geometry3K数据集）上的表现尤为亮眼，准确率达到77.4%，而GPT-4o只有34.1%，GLM-4.6V也只有60.4%。图表问答（ChartQA）上，MAESTRO以86.8%的准确率与最好的基准线持平。在医学问答（Slake）上，MAESTRO达到66.2%，而大多数"思考图像"类方法普遍在57%至66%之间。

在从未见过的"域外测试"（即那些训练时完全没有接触过的数据）上，MAESTRO同样表现稳健：高分辨率视频理解测试VStar上达88.0%，HRBench-4K上达79.6%，均超过了同类专用方法中的最优者。

更值得关注的是效率。MAESTRO的平均推理延迟仅为2.88秒，平均每次推理消耗648个词语单元，在所有对比方法中都是最低的。这意味着，尽管调用了多个专家模型，整体速度反而更快——因为指挥官能精准判断何时需要调兵、调哪个兵，避免了那些低效的反复尝试和无用功。

---

六、插上翅膀：无需重新训练，随时扩充新专家

MAESTRO最具实用价值的特性，是它的"即插即用"扩展能力。在完成基础训练之后，研究团队向系统中新增了两个额外的专家模型（Step3-VL-10B和Qwen3.5-9B），以及四个新的一级技能（具身场景求解器、OCR求解器、图表推理技能和Python代码生成器），把技能库从五个一级技能、八个二级技能扩展到了九个一级技能、二十四个二级技能——全程不对指挥官做任何重新训练。

扩展后的系统被称为MAESTRO*，在四个全新的专项测试上（具身推理ERQA、OCR识别OCRBench、合成图表推理VlmsAreBlind和视觉代码生成Humaneval_V）的平均准确率从52.7%提升到59.5%，超越了包括Gemini-2.5-Pro（55.6%）和Kimi-K2.5（59.2%）在内的所有对比模型。

这种扩展能力之所以成立，是因为指挥官学到的并不是"面对某个特定数据集该怎么做"的死记硬背，而是一套通用的调度逻辑：根据问题的语义特征判断哪类工具最合适、哪个模型的特长最匹配。当新工具以自然语言描述的形式加入系统，指挥官可以读懂这些描述并据此做出合理的调度决策，即便它在训练时从未见过这些工具。

即便是在没有任何新技能扩充的情况下，用默认的五个专家和五个一级技能在四个全新测试上测试，MAESTRO已经以52.7%的平均准确率超越了所有"思考图像"类方法（最好的只有45.0%），并与顶级闭源模型不相上下。这说明那些通用技能捕捉的是跨领域普遍适用的视觉推理能力，而不是专门为某个测试设计的取巧方案。

---

七、现实世界的压力测试：工具调用和客服对话

为了验证MAESTRO不只是在学术测试集上好看，研究团队还在两个更贴近实际部署的测试平台上进行了评估。

第一个是BFCL-V4，即伯克利函数调用排行榜第四版，专门测试AI系统在单轮和多轮对话中调用外部工具的准确性。MAESTRO在综合评分上达到78.09，超过了GPT-5.2（68.58）、Gemini-2.5-Flash（72.88）和Claude-Opus-4.5（72.14）。进步最明显的地方在于"实时动态"测试（Live分项，82.38比76.02）和多轮对话测试（44.62比43.75）——这两项测试要求系统能随着对话进展动态适应不断变化的API接口和状态。

第二个是tau2-bench，这是一个模拟真实客服场景的多轮对话测试，包含零售、航空、电信和银行四个行业场景，要求AI代理遵循复杂的业务规则、跨轮次管理对话状态，并在适当时机调用工具完成用户请求。MAESTRO在四个场景的平均分达到72.9，超过了Claude-Opus-4.5（70.2）、GPT-5.2（55.5）和Gemini-2.5-Flash（48.1）。

这些结果说明，MAESTRO在静态题目测试集上学到的调度策略，在动态、多轮、工具密集的真实交互场景中同样有效——这是很多学术模型跨不过去的一道坎。

---

八、解剖一下成功：哪些部分真的有用？

研究团队做了一系列消融实验，逐一拆解MAESTRO的各个组件，看看去掉哪个部分会带来多大损失。这就像检验一道菜里哪种调料是关键——一样一样地去掉，看味道怎么变。

去掉技能库（只保留专家模型池，没有分层技能）：平均准确率下降2.7%。

去掉专家模型池（只保留40亿参数的指挥官和技能库，没有其他专家）：平均准确率下降12.1%，而且在推理密集型任务上损失尤为惨烈——MathVision从43.4%暴跌至27.6%，Geometry3K从77.4%骤降至22.3%。这说明，基础的40亿模型根本无法替代那些领域专家的能力。

两者都去掉（退化为基础模型直接回答）：平均准确率降至55.8%，但仍高于没有任何系统框架的直接回答（54.7%），说明技能库本身即便没有专家模型配合，也有一定价值。

由此可见，专家模型池和技能库是相辅相成的：专家模型提供领域深度，技能库提供结构化的感知和解析能力。两者合力，才能发挥出最大的协同效应——专家是乐团的大脑，技能是乐团的手和眼。

在奖励机制上，去掉格式奖励造成的损失（平均下降13.1%）远大于去掉结果奖励（平均下降8.8%）。这是一个反直觉的发现：人们可能以为"答对了才奖励"的结果信号是最重要的，但实际上，如果格式混乱、对话结构破碎，系统根本无法正常调用外部工具，相当于直接退化成了一个不会用工具的普通模型，损失自然更大。格式奖励确保了多轮通信的可靠性，而结果奖励在此基础上进一步优化了选择质量。

---

九、技能库的内部构造：二十四把专用工具

MAESTRO的技能库设计本身也值得细细品味。九个一级技能各有分工，每个之下又有若干二级子技能，通过关键词匹配或专家模型分类来自动路由到最合适的子技能。

几何题求解器（S1）下只有一个子技能，专注于从图像中提取点、线、角、圆、标注等结构化几何元素，再结合图像描述和OCR识别的文字信息，进行多步推理验证。图表题求解器（S2）下有三个子技能，分别专门处理柱状图（用OCR解析标题、坐标轴、图例，按柱高做比较计算）、折线图（通过线型或颜色区分数据系列，识别趋势转折点）和饼图（提取扇区标签和百分比文字，建立部分与整体的关系）。

计数题求解器（S3）整合了目标检测工具和DeepEyes-7B辅助模型，为每个目标标注大致坐标，防止重复计数或遗漏被遮挡的物体。感知题求解器（S4）有两个子技能：一个专门处理颜色感知（放大相关区域、区分相似色调、排除阴影和反光干扰），另一个处理相对位置和一般感知（同时处理原图和放大图，评估拓扑关系）。科学题求解器（S5）综合使用图像描述、OCR和DeepEyes-7B解析实验图示，融合视觉与文字证据推导科学结论。

扩展的四个技能（S6至S9）则分别针对具身场景推理（五种路线：轨迹结果、动作调整、空间力学、指向定位、多视角对应）、OCR任务（五种类型：文字识别、关键信息提取、场景文字问答、文档图表问答、公式识别）、合成图表推理（五种子任务：圆的接触与重叠判断、交叉点与路线计数、网格结构解析、高亮字符识别、几何形状计数）和Python代码生成（从视觉示例中推断函数逻辑并生成可运行代码，失败时自动迭代修复）。

---

十、放大镜下的训练过程：系统如何学会"何时出手"

研究团队监测了整个训练过程中的奖励变化和策略熵变化。奖励曲线从训练开始就稳定上升，最终在较高水平趋于平稳；策略熵则从高位持续下降，最终稳定在一个低得多的水平。

这两条曲线共同讲述了一个成长故事：训练初期（大约前50步），指挥官还处于"探索阶段"，频繁地在每道题上发出多次搜索请求，有时还会生成格式混乱的动作序列，一切都很随机，所以熵很高，奖励也很低。

大约经过50步训练之后，指挥官开始掌握基本格式规范，能够为那些相对简单的任务生成格式正确、只调用一次工具的解题轨迹，格式奖励随之稳定。

训练进入后期（大约100步之后），出现了一种研究团队称之为"涌现行为"的有趣现象：指挥官学会了选择性的多轮策略——对于简单任务，一步搞定；对于那些真正模糊的情况（比如高分辨率图像中需要进一步放大才能确认的细节），才会发起后续查询。这种行为并没有被显式编程进系统，完全是从结果导向的奖励信号中自然涌现出来的。

从pass@1（单次采样的准确率，即通常意义上的模型表现）到pass@16（16次采样中至少有一次正确的比例）的对比，也揭示了重要信息：MAESTRO在pass@16上的平均准确率达到84.9%（部分任务如Geometry3K达到94.0%，VStar达到92.7%），而pass@1只有70.1%。这14.8个百分点的差距说明，对于大多数问题，正确的模型-技能组合在现有系统内是可以找到的，只是当前的一次性调度还不能每次都精准命中。这为未来进一步改进指挥官的选择精度留下了明确的上升空间。

---

十一、技能从何而来：不是凭空设计，而是有据可依

一个合理的质疑是：设计和维护这套技能库需要多少人工成本？研究团队对此做了坦诚的说明。

每个一级技能和其下的子技能，都是直接从已有的基准测试方法论和开源工具链中系统性地推导出来的，而不是从零开始发明。几何求解器参考了InterGPS的可解释几何求解协议；图表求解器的设计基础来自ChartQA和Chart-R1已建立的强基准方法；计数求解器借用了VisionReasoner的检测辅助枚举范式和DeepEyes的基于缩放的定位策略；感知和科学求解器则分别沿用了VTOOL-R1的分层视觉锚定工作流和Thyme的图像描述加OCR融合策略。扩展技能则直接从对应基准测试的任务定义和评估协议中移植而来。

在此基础上，每个一级技能的主要工作量只有两件事：把基准测试推荐的解题流程整理成结构化的多步提示词，以及根据基准测试作者已提供的问题类型分类，定义二级子技能的关键词路由规则。研究团队估计，五个默认技能（S1至S5）的提示工程工作量约为三到五个人时，四个扩展技能（S6至S9）额外需要一到两个人时。这与从头设计一个完整的AI系统相比，成本极为有限。

当然，研究团队也坦承，随着技能库规模扩大，人工维护成本仍然是一个真实存在的约束，自动化技能生成是他们明确列为未来工作方向的内容。

---

十二、不完美的地方：系统的局限和失败案例

没有任何一个系统是完美的，MAESTRO也不例外。研究团队诚实地列举了两类典型的失败模式。

第一类发生在那些横跨两个技能类别边界的问题上——比如一道既需要图表解析又需要领域专业知识的题目。在这种情况下，指挥官倾向于选定一个一级技能之后就坚持下去，在允许的轮次内不会重新考虑更换技能，导致任务推进不顺畅。

第二类失败集中在Humaneval_V（视觉代码生成）测试上。这个测试的难点不在于技能选择，而在于从视觉示例中推断编程逻辑本身的固有难度——系统需要通过看图来猜出一段代码应该实现什么功能，这对所有现有模型来说都是极具挑战性的任务。

从pass@1和pass@16的差距可以看出，当前系统的主要瓶颈在于路由精度（一次能否选对模型和技能），而非覆盖范围（系统内部是否存在能解决该问题的能力）。对于绝大多数问题，正确答案在现有的模型-技能组合空间里是可及的，但指挥官还没有完全学会每次都精准命中。

---

说到底，MAESTRO做的事情用一句话就能概括：与其花天文数字的成本去训练一个无所不知的超级模型，不如训练一个聪明的调度官，让它学会在对的时候找对的专家。这个思路本身并不神奇，但MAESTRO用严谨的实验和漂亮的数字证明了它的可行性：一个4B的小指挥官，加上几个各怀绝技的专家，可以在十项测试的平均表现上盖过GPT-5——而且速度更快、成本更低。

归根结底，这项研究最有意思的启示不在于那一两个百分点的准确率提升，而在于它开辟了一条全新的技术路线：AI能力的进步未必需要永无止境地堆砌参数，有时候，更聪明的协调方式就是答案。当系统出现差错时，问题往往不是"这里面没有会做这道题的专家"，而是"指挥官还没学会在这种情况下找那位专家"——这恰好指向了未来最值得深耕的方向。

你可能会进一步想到：如果技能库本身能够自动生成和扩展，而不依赖人工维护，那会发生什么？如果指挥官能在部署过程中持续学习、实时调整，又会带来多大的进步空间？这些问题，研究团队已经明确列为下一步探索的方向。如果这些问题得到解答，我们或许将看到一个真正意义上的"自我进化"的AI协作生态系统。对这项研究感兴趣的读者，可以通过arXiv编号2605.22177查阅完整论文，或访问项目主页获取开源代码。

---

Q&A

Q1：MAESTRO是什么模型？

A：MAESTRO是清华大学等高校联合提出的一种AI编排框架，核心是一个仅有40亿参数的"指挥官"模型，负责动态调度多个专用专家模型和分层技能库来协同解决复杂多模态任务，而非用单一大模型包揽一切。

Q2：MAESTRO为什么能用4B小模型打败GPT-5？

A：因为MAESTRO的4B指挥官不需要自己解题，它的工作是判断该让哪个专家上场、用哪个技能。每个专家模型在自己领域经过专门训练，几何、图表、医学各有其长，组合起来形成的整体能力超过了通才型大模型的表现。

Q3：MAESTRO扩充新模型需要重新训练吗？

A：不需要。MAESTRO的扩展实验证明，在不对指挥官进行任何重新训练的情况下，直接向系统中加入新的专家模型和技能，指挥官可以通过读取新技能的自然语言描述来学会调用它们，在四个全新测试上的平均准确率从52.7%提升到了59.5%。

DC娱乐网

清华大学等推出"MAESTRO": 一个4B小模型，凭什么把GPT-5比下去？

热门分类