阿里新方法教AI用好搜索通义团队开源新框架MaskSearch阿里通义实验室发布

量子位看科技 2025-05-31 15:23:25

阿里新方法教AI用好搜索通义团队开源新框架MaskSearch

阿里通义实验室发布的预训练框架MaskSearch,小模型也能媲美大模型!

这个新开源框架,核心是让模型在预训练阶段练习“边推理边用搜索引擎”。方法来源于BERT的“掩码预测”思路,但MaskSearch不是让模型凭空猜词,而是逼它学会通过搜索获取外部知识来补全被遮蔽的信息。这类任务叫做RAMP(检索增强型掩码预测)。

MaskSearch特别之处在于,它能同时兼容监督微调(SFT)和强化学习(RL)训练方式。在SFT中,它用“多智能体+教师模型”的方式自动生成高质量思维链;在RL中,它靠“混合奖励”系统引导模型优化推理路径,避免只为得分堆信息。

更进一步,作者还设计了课程学习策略,让模型从简单任务逐渐适应复杂场景,显著提升模型泛化能力。

实验结果亮眼。在多个问答数据集上,MaskSearch都比传统训练方式效果更好。尤其是在跨领域任务上,小模型的表现甚至能媲美大模型。

同时,研究也发现不同掩码策略、奖励函数对最终性能有明显影响,说明“让模型学会怎么学”本身也是个技术活。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注