AIPress.com.cn报道
1月12日消息,具身人工智能初创公司SpiritAI宣布,其最新一代视觉-语言-动作(Vision-Language-Action,VLA)模型Spiritv1.5在RoboChallenge基准测试中获得综合排名第一同时,将模型权重、核心代码及评测流程全面开源,以支持结果复现与学术验证。
RoboChallenge是一个面向真实机器人执行场景的标准化评测基准,由Dexmal、HuggingFace等机构联合发起,重点评估具身AI系统在现实环境中的执行稳定性与泛化能力。本次测试采用Table30任务集,覆盖物体插入、食物处理、多步骤工具使用等日常操作场景,并在不同硬件配置下进行评估,包括单臂、双臂机器人及多种感知方案。
评测重点聚焦模型在三维定位、遮挡处理、时间推理、长时序任务执行以及跨机器人迁移能力等方面的表现。
Spiritv1.5采用统一的VLA架构,将视觉感知、语言理解与动作生成整合为端到端决策过程。与传统模块化系统相比,该架构减少了信息割裂带来的误差,在复杂、多阶段任务中表现出更稳定的一致性。
值得关注的是,Spiritv1.5在训练阶段采用了不同于主流“高质量、强脚本化示范”的数据采集策略。其核心训练数据来自开放式、目标驱动的真实交互过程,操作人员只设定高层目标,而不限定具体动作路径,使单次采集过程自然涵盖多种技能组合、技能切换及异常恢复行为。
SpiritAI披露的消融实验结果显示,在数据规模相同的前提下,使用多样化、非脚本数据进行预训练的模型,在后续新任务微调中展现出更快的收敛速度和更低的验证误差。这一结果显示,数据多样性而非“任务纯度”,可能是提升具身智能泛化能力的关键因素之一。
此次开源内容包括Spiritv1.5的模型权重、训练与推理代码,以及RoboChallenge评测所使用的核心实现。业内认为,这一举措有助于提升具身AI评测结果的透明度,并为研究机构和开发者提供可直接复用的基础模型框架。
SpiritAI表示,开源的目的在于推动具身智能领域的协作研究与方法验证,而非单纯展示性能结果。相关资源已发布在GitHub、HuggingFace及公司官方技术博客。(AI普瑞斯编译)