周末把最近的世界模型之争好好梳理了一下。三件事连起来看,路线图其实很清晰了。
第一件:千寻智能Spirit v1.6在RoboArena上把英伟达Cosmos 3干下去了。千寻的路线是拿博世、京东、宁德时代的真实产线数据喂模型——真实物理交互,不是仿真。
第二件:北大EvoPhys搞了个5D世界模型,在三维空间+时间之上加了第五维「因果推演」。机器人行动前先推演多条世界线的结果。这个思路跟Jim Fan说的WAM(世界行动模型)异曲同工。
第三件:李飞飞发论文把世界模型分成三类——渲染器、仿真器、规划器。她说三类最终会融合。
说实话,这三件事串起来,能看出两条越来越清晰的技术路线:
路线一:NVIDIA的仿真路线。用GPU堆出一个足够逼真的虚拟世界,在里面训练机器人。优势是规模化,劣势是sim-to-real gap永远存在。
路线二:中国团队的真实数据路线。直接在工厂产线、物流仓库里采数据。优势是真实物理反馈,劣势是场景扩展慢——你在京东仓库训出来的模型,去宁德时代的产线不一定好用。
但我觉得最关键的是:这两条路线不是互斥的。真正跑出来的公司,一定是仿真+真实数据双修。仿真做初筛,真机做精调。
世界模型之争还远没到终局,但方向已经明确了——谁先搞定「仿真到真实的零成本迁移」,谁就赢了。
你怎么看?仿真路线还是真实数据路线?
AI 机器人 世界模型 具身智能 千寻智能