[RO]《Human Universal Grasping》K Y Wu, T Zhou, I Tu, B Yan… [New York University] (2026)
在灵巧手抓取领域,实现通用性是一个悬而未决的难题。过去的方法受困于仿真环境与现实的巨大鸿沟(Sim-to-Real Gap)或繁琐的机器人示教,本质原因是缺乏大规模、多样化且符合物理直觉的真实抓取数据。
本文的核心洞见是:将人类日常抓取看作机器人最自然的示教来源,而非依赖昂贵的机器人数据。由此,通过智能眼镜采集百万级人类抓取数据集(1M-HUGS),并利用流匹配(Flow-matching)模型融合 RGB-D 信息预测手部姿态,这一关键操作使机器人能够零样本迁移至多种异构灵巧手。
这项工作真正留下的遗产是证明了纯人类数据足以驱动复杂的机器人灵巧操作。它为后来者打开的新门是建立了一套从穿戴式采集到多机器人部署的标准范式(含 HUG-BENCH 基准),但尚未跨过的门槛是缺乏闭环视觉反馈,导致在处理动态物体或精细力控时仍存在局限。
arxiv.org/abs/2606.17054 机器学习 人工智能 论文 AI创造营








