理想对VLA的处理思路有可能发生了本质变化读者有任何不同意见，都欢迎随时指出与交

理想对VLA的处理思路有可能发生了本质变化读者有任何不同意见，都欢迎随时指出与交流，TOP2可能存在错误理解。对VLA处理思路发生本质变化的依据锚点是理想2026年3月2日发的LinkVLA论文与贾鹏2025年3月18日在GTC上讲的不同。

标题里写“可能”锚点为两个：1.只是一篇论文，理想将来实际未必按论文里的思路去做。2.TOP2有自身不知道的错误理解。

本质变化在于，认为动作不应该是LLM的输出结果，而应该是LLM的原生语言。通过将坐标直接token化并引入对数空间分布，让LLM具备了直接操纵物理空间的能力，而不再需要中间的diffusion这个翻译官。

Token从高维环境特征到物理坐标贾鹏版的action token是高维环境特征编码思路，包含模型对周围3D空间(基于3DGS高斯表征)的理解、其他交通参与者的一侧状态以及自车的意图，这种高维环境特征token需要通过diffusion这个翻译官，才能生成对应的轨迹。Token承载的是3D几何和语义信息，强调的是对环境的理解。

而LinkVLA版的action token是离散化的BEV空间坐标，每个action token对应一个唯一的网格坐标，模型输出的不是一个复杂的环境特征包，而是一个由位置token组成的序列，模型把环境理解留在了LLM的隐藏层里(包括3DGS提取的特征)，输出层的token只代表位置。

LLM像预测苹果这个词一样，直接预测坐标网络ID。动作与语言在底层共享同一个词表，从实质上进行了结构化对齐。

从一次性输出到精准修正贾鹏版采用并行解码，action token一次性全部输出，然后diffusion迭代采样。

LinkVLA版采用两步token 化。首先预测一个代表终点endpoint token，在插值基础上，再预测一组残差token来修正坐标。

这种方式不再是单纯的一次性输出，而是通过token的组合(基础坐标 + 修正残差)来实现极高的轨迹精度。并大幅度提升推理速度，降低时延。

在token化时，近处的网格密集，远处的网格稀疏。解决了传统均匀网格在近场控制精度不足的问题。Token本身就带有了空间感知的非线性特征。

从单向对齐与双向对齐贾鹏版VLA通过RLHF(人类反馈强化学习)来对齐驾驶偏好，本质是在微调模型的输出端。

LinkVLA版VLA，引入动作理解的训练任务，不仅让模型学会根据指令生成轨迹，还要求模型能看图说话把一段行驶轨迹反向翻译成文字描述。

这种双向的语义绑定，解决VLA语义鸿沟问题，比如模型虽然做出了左转的决策，但实际轨迹却可能跑偏。通过结构化对齐让模型真正理解动作的含义。如果模型不能把一段轨迹翻译成正确的文字，会被认为没有真正掌握这个动作。

理想汽车

DC娱乐网

理想对VLA的处理思路有可能发生了本质变化读者有任何不同意见，都欢迎随时指出与交

热门分类