自动驾驶从感知、模仿进入认知推理阶段，小米发布的 OneVL 核心解决 “看清后

自动驾驶从感知、模仿进入认知推理阶段，小米发布的 OneVL 核心解决 “看清后如何快速精准决策” 难题。

它采用 XLA 路线，创新 Latent CoT，将推理载体从语言转向视觉时空结构。通过双模态 latent token、双解码器监督、一步式推理三大设计，推理延迟压至 0.24 秒，速度较显式 CoT 最高提升 2.3 倍，精度更优。

OneVL 统一 VLA、世界模型与潜空间推理，还具备语言 + 视觉双维可解释性，已在多项基准达 SOTA。虽面临算力、长尾场景等挑战，但为自动驾驶落地提供关键方案，且可拓展至机器人等领域。