《DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL》
推动深度搜索智能体迈向新高度:DeepDive结合知识图谱自动合成难题与端到端多轮强化学习,实现长程推理与深度检索无缝融合。
• 利用知识图谱随机游走生成多跳路径,自动合成含模糊属性的复杂难题,模拟真实世界中信息稀缺且分散的检索环境。
• 端到端多轮强化学习训练,采用严格格式与答案校验奖励机制,引导模型迭代推理、动态调用搜索工具,显著提升长期规划和工具调用能力。
• DeepDive-32B在BrowseComp等四大深度搜索基准测试中表现优异,超过多款开源及部分专有系统,实现14.8%准确率,强化学习阶段工具调用次数提升30%+,促使搜索策略更深更广。
• 测试时支持工具调用次数扩展与多轨并行采样,创新选取最少调用轨迹的答案方式,准确率提升近100%,展现出强大的推理与搜索协同能力。
• 半自动i.i.d.数据合成进一步提升模型表现,BrowseComp准确率突破20%,多语言能力同步增强,确保训练数据质量与无数据泄漏风险。
心得:
1. 复杂多跳推理需借助结构化知识图谱构建高质量训练数据,单纯自然语言数据难以模拟真实难题的模糊性与多样性。
2. 多轮强化学习不仅提升模型推理深度,更能有效激励模型合理规划搜索步骤,突破单步推理或浅层工具调用的瓶颈。
3. 测试时灵活扩展工具调用次数及多轨采样策略,是提升深度搜索性能的关键,提示未来系统设计应重视动态资源调度与结果融合。
详情🔗 arxiv.org/abs/2509.10446
人工智能 深度学习 强化学习 知识图谱 自然语言处理 机器阅读理解 多轮推理 深度搜索