没有标题党, 理想系统性重构语言-动作模型语言理解与物理动作之间的持续性错位是当前VLA落地的核心障碍,现有的解法大致分三类: 改数据、用强化学习做事后修正、在隐空间做分布对齐。
理想汽车在其论文LinkVLA中认为,这三种路径都在回避问题的本质——它们把对齐当作一个需要修补的缺陷,而非一个需要从架构层消灭的结构性问题。LinkVLA的三个原创贡献,正是沿着这个判断展开的。
1.Shared Codebook: 消灭翻译这个动作本身 大多数VLA模型在做的事,是把人类的语言翻译成车辆的动作坐标。翻译总会有损耗,而且这种损耗没有直接的监督信号去约束它。
LinkVLA的原创性在于,直接把语言和轨迹塑造成了同一种数字方言,从源头上不再需要翻译。
具体而言,LinkVLA将BEV下的连续轨迹坐标,通过对数坐标变换和空间感知量化,离散化为 5,656 个动作 Token,再将这个动作词表与语言模型的文本词表合并,形成一个统一的Shared Codebook。语言Token和动作Token的嵌入向量在同一个空间内端到端联合学习。这意味着在模型的表征空间里,向左变道的指令和向左偏移的轨迹不再是两个需要对齐的模态,而是同一个向量空间里的对称点。模态间隙在结构层面被消灭,而非事后弥合。
2.Action Understanding Objective: 模型能解释自己,才算真正懂了一个只会肌肉记忆式开车的模型,并不可靠。它的动作可能在统计上是正确的,但一旦遇到长尾场景,它无法调用语言层面的常识去推理。
LinkVLA引入了一个Action Understanding Objective,在训练中强制要求模型完成一个反向任务: 不仅要根据语言指令生成轨迹(L→A),还要根据已有的轨迹和视觉上下文,反向生成对应的语言描述(A→L)。这两个方向的任务共享同一个解码器,只是交换了预测目标的角色。
这种双向约束的效果,在论文的消融实验中有直接体现: 在Action Dreaming指令跟随评测中,加入对齐模块后,整体平均成功率从81.63%升至87.16%,变道成功率从88.49%升至97.42%。
这种提升来自于动作Token被赋予了更深的语义锚定——当模型被迫能够用语言解释一段轨迹时,它所生成的轨迹才具备了真正的语义稳定性,而非概率上的随机碰撞。
3.C2F: 为并行计算定制的轨迹生成架构 自回归生成是大模型的天性,但在自动驾驶里是实时性的障碍。生成T个轨迹点需要T次串行前向传播,LinkVLA的纯自回归版本(AR)的推理时延达 361ms。
LinkVLA的Coarse-to-Fine(C2F)架构将这个 T 步串行依赖压缩为两步: 第一步,用一次前向传播预测轨迹的终点; 第二步,基于终点通过线性插值构建粗骨架,再将所有轨迹点并行精修为最终的平滑路径。精修阶段通过Cross-Attention引入视觉-语言上下文,使精修后的轨迹能够遵守车道边界、规避障碍物并响应语言指令。
这种重构将推理时延从361ms降至48ms,节省了 86% 的推理时间,同时驾驶评分从90.66进一步提升至91.01——速度与精度同步提升,而非此消彼长。这种并行精修的计算模式,与理想自研芯片数据流架构所天然支持的高并行度高度适配。
三个贡献共同构成了一条完整的逻辑链: Shared Codebook 在结构层面消灭了模态间隙,Action Understanding 在语义层面建立了双向约束,C2F 在效率层面解除了自回归的实时性瓶颈。
这不是在现有范式上的局部优化,而是对语言-动作模型底层架构的一次系统性重构。
2026年3月2日理想发布
Unifying Language-Action Understanding and Generation for Autonomous Driving
理想汽车