到了VLA阶段的架构图看着更简单了？其实背后也有不少技术点，理想分享了VL

到了 VLA 阶段的架构图看着更简单了？其实背后也有不少技术点，理想分享了 VLA 司机大模型所包含的模块细节:

首先是空间编码器，车子上虽然装了很多摄像头、雷达，能看到各种信息，

但“大模型”本身不认识什么叫车道线、红绿灯、障碍物。

空间编码器的作用，就是把这些信息整理成机器能理解的“场景语言”，

让模型知道：这是一条什么样的路，有哪些可行驶区域、有哪些禁止进入的地方，谁是行人、谁是车，环境几何结构是什么样的。

这个环节相当于“翻译现场”，一张系统自己看得懂的地图，这一步如果做不好，后面再聪明的模型也只能瞎猜。

————

接着是Diffusion轨迹预测。我们常说辅助驾驶系统要「看懂别人想干嘛」，

但很多场景下别人的行为是模糊的，比如对向车辆会不会突然左转、旁边电动车会不会横穿马路。

这时，Diffusion就可以生成多个合理的轨迹可能性，并通过反复采样优化，选出最可能发生的结果。

它的好处在于不死板、不简单猜平均值，而是像老司机那样提前“预判风险”。

————

第三是MoE混合专家结构。它解决的是「复杂任务不能一个模型全包」的问题。

理想的做法是，把大模型拆成很多个「专家」，有的专门判断红绿灯，有的处理插队变道，有的负责并线跟车。

每次行车中只激活部分专家，就像队伍里只叫懂行的上场，节省算力又能保证效率。

这种结构比传统大模型更高效，也更容易扩展新技能，对芯片算力释放和功耗优化都有所帮助。

————

第四是Sparse Attention（稀疏注意力），大模型处理的信息量非常大，但车载芯片算力是有限的，所以必须学会“只关注重点”。

Sparse Attention的作用是让模型像人一样只看关键区域，比如准备并线时，就集中注意后方侧后方的区域；在路口转弯时，优先处理左侧来车或行人位置。

这种注意力机制既加快处理速度，又提升判断精度，是落地不可或缺的关键优化。

————

最后 RLHF就是基于人类反馈的强化学习，辅助驾驶并不只是完成动作，而是要有人的路感。

比如红绿灯刚变绿不一定马上起步，骑电动车的人摇摇晃晃可能不稳定，夜间远光灯可能误导感知系统……这些不是写死的规则，而是靠大量真实人类反馈训练出来的“经验值”。

RLHF技术让模型逐渐掌握这些“老司机的判断”，表现出更自然、更安全的驾驶风格。

————

当这些技术组合起来，就形成了一个既理解场景、又会预判、还能学经验的大模型驾驶系统，

并且在这之上还引入了自然语言交互、多模态指令这些AI能力，让用户更方便、更有感知的使用，

最终形成一套「听得懂话、看得懂路、开得像人」的自动辅助驾驶系统，或者说是 Agent 助手。

理想汽车[超话]汽场全开新能源大牛说

0 阅读：0