自动驾驶从感知、模仿进入认知推理阶段,小米发布的 OneVL 核心解决 “看清后如何快速精准决策” 难题。
它采用 XLA 路线,创新 Latent CoT,将推理载体从语言转向视觉时空结构。通过双模态 latent token、双解码器监督、一步式推理三大设计,推理延迟压至 0.24 秒,速度较显式 CoT 最高提升 2.3 倍,精度更优。
OneVL 统一 VLA、世界模型与潜空间推理,还具备语言 + 视觉双维可解释性,已在多项基准达 SOTA。虽面临算力、长尾场景等挑战,但为自动驾驶落地提供关键方案,且可拓展至机器人等领域。

