理想对VLA的处理思路有可能发生了本质变化读者有任何不同意见,都欢迎随时指出与交流,TOP2可能存在错误理解。对VLA处理思路发生本质变化的依据锚点是理想2026年3月2日发的LinkVLA论文与贾鹏2025年3月18日在GTC上讲的不同。
标题里写“可能”锚点为两个:1.只是一篇论文,理想将来实际未必按论文里的思路去做。2.TOP2有自身不知道的错误理解。
本质变化在于,认为动作不应该是LLM的输出结果,而应该是LLM的原生语言。通过将坐标直接token化并引入对数空间分布,让LLM具备了直接操纵物理空间的能力,而不再需要中间的diffusion这个翻译官。
Token从高维环境特征到物理坐标贾鹏版的action token是高维环境特征编码思路,包含模型对周围3D空间(基于3DGS高斯表征)的理解、其他交通参与者的一侧状态以及自车的意图,这种高维环境特征token需要通过diffusion这个翻译官,才能生成对应的轨迹。Token承载的是3D几何和语义信息,强调的是对环境的理解。
而LinkVLA版的action token是离散化的BEV空间坐标,每个action token对应一个唯一的网格坐标,模型输出的不是一个复杂的环境特征包,而是一个由位置token组成的序列,模型把环境理解留在了LLM的隐藏层里(包括3DGS提取的特征),输出层的token只代表位置。
LLM像预测苹果这个词一样,直接预测坐标网络ID。动作与语言在底层共享同一个词表,从实质上进行了结构化对齐。
从一次性输出到精准修正贾鹏版采用并行解码,action token一次性全部输出,然后diffusion迭代采样。
LinkVLA版采用两步token 化。首先预测一个代表终点endpoint token,在插值基础上,再预测一组残差token来修正坐标。
这种方式不再是单纯的一次性输出,而是通过token的组合(基础坐标 + 修正残差)来实现极高的轨迹精度。并大幅度提升推理速度,降低时延。
在token化时,近处的网格密集,远处的网格稀疏。解决了传统均匀网格在近场控制精度不足的问题。Token本身就带有了空间感知的非线性特征。
从单向对齐与双向对齐贾鹏版VLA通过RLHF(人类反馈强化学习)来对齐驾驶偏好,本质是在微调模型的输出端。
LinkVLA版VLA,引入动作理解的训练任务,不仅让模型学会根据指令生成轨迹,还要求模型能看图说话把一段行驶轨迹反向翻译成文字描述。
这种双向的语义绑定,解决VLA语义鸿沟问题,比如模型虽然做出了左转的决策,但实际轨迹却可能跑偏。通过结构化对齐让模型真正理解动作的含义。如果模型不能把一段轨迹翻译成正确的文字,会被认为没有真正掌握这个动作。
理想汽车