没有标题党, 理想系统性重构语言-动作模型语言理解与物理动作之间的持续性错位是当

没有标题党, 理想系统性重构语言-动作模型语言理解与物理动作之间的持续性错位是当前VLA落地的核心障碍，现有的解法大致分三类: 改数据、用强化学习做事后修正、在隐空间做分布对齐。

理想汽车在其论文LinkVLA中认为，这三种路径都在回避问题的本质——它们把对齐当作一个需要修补的缺陷，而非一个需要从架构层消灭的结构性问题。LinkVLA的三个原创贡献，正是沿着这个判断展开的。

1.Shared Codebook: 消灭翻译这个动作本身大多数VLA模型在做的事，是把人类的语言翻译成车辆的动作坐标。翻译总会有损耗，而且这种损耗没有直接的监督信号去约束它。

LinkVLA的原创性在于，直接把语言和轨迹塑造成了同一种数字方言，从源头上不再需要翻译。

具体而言，LinkVLA将BEV下的连续轨迹坐标，通过对数坐标变换和空间感知量化，离散化为 5,656 个动作 Token，再将这个动作词表与语言模型的文本词表合并，形成一个统一的Shared Codebook。语言Token和动作Token的嵌入向量在同一个空间内端到端联合学习。这意味着在模型的表征空间里，向左变道的指令和向左偏移的轨迹不再是两个需要对齐的模态，而是同一个向量空间里的对称点。模态间隙在结构层面被消灭，而非事后弥合。

2.Action Understanding Objective: 模型能解释自己，才算真正懂了一个只会肌肉记忆式开车的模型，并不可靠。它的动作可能在统计上是正确的，但一旦遇到长尾场景，它无法调用语言层面的常识去推理。

LinkVLA引入了一个Action Understanding Objective，在训练中强制要求模型完成一个反向任务: 不仅要根据语言指令生成轨迹(L→A)，还要根据已有的轨迹和视觉上下文，反向生成对应的语言描述(A→L)。这两个方向的任务共享同一个解码器，只是交换了预测目标的角色。

这种双向约束的效果，在论文的消融实验中有直接体现: 在Action Dreaming指令跟随评测中，加入对齐模块后，整体平均成功率从81.63%升至87.16%，变道成功率从88.49%升至97.42%。

这种提升来自于动作Token被赋予了更深的语义锚定——当模型被迫能够用语言解释一段轨迹时，它所生成的轨迹才具备了真正的语义稳定性，而非概率上的随机碰撞。

3.C2F: 为并行计算定制的轨迹生成架构自回归生成是大模型的天性，但在自动驾驶里是实时性的障碍。生成T个轨迹点需要T次串行前向传播，LinkVLA的纯自回归版本(AR)的推理时延达 361ms。

LinkVLA的Coarse-to-Fine(C2F)架构将这个 T 步串行依赖压缩为两步: 第一步，用一次前向传播预测轨迹的终点; 第二步，基于终点通过线性插值构建粗骨架，再将所有轨迹点并行精修为最终的平滑路径。精修阶段通过Cross-Attention引入视觉-语言上下文，使精修后的轨迹能够遵守车道边界、规避障碍物并响应语言指令。

这种重构将推理时延从361ms降至48ms，节省了 86% 的推理时间，同时驾驶评分从90.66进一步提升至91.01——速度与精度同步提升，而非此消彼长。这种并行精修的计算模式，与理想自研芯片数据流架构所天然支持的高并行度高度适配。

三个贡献共同构成了一条完整的逻辑链: Shared Codebook 在结构层面消灭了模态间隙，Action Understanding 在语义层面建立了双向约束，C2F 在效率层面解除了自回归的实时性瓶颈。

这不是在现有范式上的局部优化，而是对语言-动作模型底层架构的一次系统性重构。

2026年3月2日理想发布

Unifying Language-Action Understanding and Generation for Autonomous Driving

理想汽车

DC娱乐网

没有标题党, 理想系统性重构语言-动作模型语言理解与物理动作之间的持续性错位是当

热门分类