【理想马赫VLA 和蔚来NWM 2.0】昨天理想发了一张智驾的架构图，我知道大

【理想马赫VLA 和蔚来NWM 2.0】

昨天理想发了一张智驾的架构图，我知道大家都在等一个 NWM 和马赫 VLA 的分析。

刚落地，在飞机上我把能找的资料都快翻烂了，写了一些我的理解，我也是互联网学生，写错了大家指出就行了，别怼天怼地，实在不行，你亲自写。

好了叠甲完成，现在开始。

先说共同点

在两家的资料里，不约而同都出现了 World Model 这个词。

理想的叫 Predictive Latent World Model （预测式隐世界模型），藏在架构深处，负责隐式推理；

蔚来的叫 NWM（NIO World Model），是整个系统的核心主角。

但同样是世界模型，两家对它的定位完全不一样，这个不一样，解释了后面所有的技术区别。

一、架构起点：信息怎么进去

理想：多路编码并行输入

看理想架构图，左侧是四条并行的输入通道：

1. Long-term Memory / User Preference（长时记忆/用户偏好）

这是理想新增的输入通道，记录用户的驾驶习惯和偏好，比如用户喜欢激进还是保守的变道风格、常用路线等

2. Encoder（解码器），标准传感器编码器，处理原始感知数据

3. 3D ViT Encoder（3D视觉编码器），处理多视角摄像头图像，输出3D视觉token序列

4. Text Tokenizer（文本分词器），处理语言指令。

四条通道并行编码后，统一进入 Native Multi-Modal Transformer（原生多模态Transformer）。

这意味着理想在输入层面就把不同模态对齐到同一个表示空间里了，语言、视觉、用户偏好、历史记忆，统统编码成统一的token序列，共享后续的处理。

这里有个关键点：语言和视觉在进入Transformer之前就已经完成了模态对齐，不是到了Transformer里才互相看见。

蔚来：传感器直连世界模型

蔚来的NWM 2.0架构里，没有显式的Text Tokenizer路径。

蔚来的逻辑是：世界模型直接从传感器数据（摄像头、激光雷达、毫米波雷达）里学习，语言是后来叠加的模块，不是原始输入。

这和任少卿一直强调的视频是比语言更底层的认知一脉相承，婴儿不需要语言就能学会躲避障碍物，驾驶能力同样不需要语言介入就能学会。

所以蔚来选择让世界模型直接从原始传感器流里看世界，语言是给人类交互用的，不是给机器决策用的。

当车辆的智能程度越高，我们越要想车在想什么？

这是差异最大的地方。

理想用一条链路同时跑两件事，看理想的架构，中间层有四个并行模块：

- Prefill KV-Cache：推理时的上下文缓存，加速后续token生成- Reasoning Decision（思考决策）：System-2的显式推理，慢思考模块- Latent World Model（隐世界模型）：在隐空间里做未来预测，不是生成视频，是在压缩空间里推演场景演变- Trajectories（轨迹）：最终输出的轨迹

关键在于这四个模块不是串行的，而是并行共存于同一个前向传播里。

思考决策和隐世界模型同时运行。

Reasoning Decision负责显式的语言式推理，当前是什么场景，应该用什么策略；

Latent World Model负责隐式的未来推演，如果我这样做，接下来几秒会发生什么。

两者结果互相参考，最终生成轨迹。

这就解释了为什么理想叫它 Predictive Latent World Model。

它不是靠生成视频来想象，而是在隐空间里做预测。隐空间是经过压缩的高维表示，信息密度高但不可直接解读，所以叫隐空间。

这种设计的好处是，计算效率远高于显式视频生成，但代价是无法直接可视化车在想什么。

你想知道系统在想什么，只能通过Decode Output 来看它的文字解释，而不是看它生成的视频。

蔚来NWM 2.0的决策逻辑完全不同。

架构核心理念从生成-筛选变成了直接生成唯一最优解。

蔚来1.0时代是，感知到生成216条候选轨迹到规则打分再到选最优最后执行

蔚来2.0时代：感知直接到世界模型直接输出唯一最优轨迹再执行

这个转变的关键在于：2.0版本的模型不是在运行时挑轨迹，而是在训练阶段就已经通过强化学习学会了什么样的决策是最优的。

运行时不需要再生成216条再筛选，直接输出一个确定的、最优的结果。

所以蔚来2.0的latency更低、可解释性更强，因为只有一条轨迹可以回溯，但代价是，训练难度更高，你必须确保模型在训练时见过足够多样的场景，否则遇到没见过的就容易出错。

蔚来的另一个关键机制是，每100毫秒重新生成一次。

不是按一条既定轨迹跑到底，而是高频重评估：每个100毫秒窗口，模型重新推演216种可能性，重新找最优解。

这意味着蔚来的系统永远处于实时思考状态，动态响应能力很强。

在这些之下其实对模型的训练要求更高了。

从架构图底部七个模块可以看出理想的完整训练体系：

第一层：Native Multi-Modal Transformer

基础是原生多模态Transformer架构，视觉、语言、动作共享同一个backbone。

训练时三者的梯度同时回传，互相约束。

第二层：Predictive Latent World Model + System-2 Explicit Reasoning

隐世界模型负责在隐空间里做未来预测，System-2负责显式语言推理。

两者是并行的，隐世界模型不需要语言参与就能推理，但System-2的推理结果可以注入到轨迹生成里。

这里System-2的定位更像是解释器而不是决策者，它输出的是当前场景的语义理解和决策的理由，这些信息帮助人类理解车的行为。

但控制信号直接从隐世界模型出来，不经过System-2。

第三层：Closed Loop RL for Generalization（闭环强化学习）

这是让模型能突破人类数据上限的关键。

理想通过在仿真环境里设定目标，让模型自己探索怎样才能达成目标，而不是单纯模仿人类司机。

仿真器里的奖励函数，成功抵达目标给正分，违章给负分驱动模型自主优化策略。

蔚来NWM 2.0的训练体系是三层叠加：

第一层：世界模型 + 自监督视频预测

训练目标是给定过去3秒视频，预测接下来会发生什么。

模型从海量视频里自己学会物理规律，不需要人工标注。

第二层：监督微调（SFT）

蔚来在2026年5月这次升级里，把SFT（监督微调）引入了训练流程。

在自监督视频预测之后，用高质量的人类驾驶数据做精细的行为雕刻，让模型的输出更像正确的老司机，而不是平均水平的司机。

第三层：闭环强化学习

蔚来是国内第一个真正量产落地完整闭环强化学习的自动驾驶系统。

它先是构建仿真环境，设定一个目标线，比如成功通过这个路口，让模型不断尝试，成功穿越给奖励，用时短额外加分，压实线扣分。

模型在仿真器里自我进化，探索出超越人类司机习惯的最优策略。

蔚来强调，这种方式不需要SD+（地图指引），不需要专家数据，只要仿真环境能构建出类似场景，模型就能自己学会。

这是泛化性最强的训练方式。

其实在整个辅助驾驶系统里最重要的是，怎么让决策怎么变成好的动作。

理想这边从架构图看，行为输出的核心技术是 MoE Action Parallel Decoding。

它不是整个模型所有参数都参与每次推理，而是动态选择最相关的专家子网络来处理当前输入。

这让模型可以很大，但不拖慢推理速度。

用并行解码的方式，轨迹的所有点同时生成，不是逐个自回归。

一次性输出完整轨迹，然后执行。

这是量产架构，其实和之前论文里提到的Flow Matching有出入。

量产版本选择了更工程化的MoE+并行解码，而不是论文里的扩散模型路线。

之前 8.0、8.1、8.2 选道很垮，轨迹生成非常差，估计和扩散有关。

蔚来NWM 2.0的动作输出有一个重大变化是：横纵向控制一体化。

1.0时代：横向（方向盘）由模型控制，纵向（速度）由模型+规则共同控制

2.0时代：横向和纵向完全由模型一体化输出，不再有规则参与的双轨制。

这意味着方向盘转角和油门/刹车力度，由同一个模型同时决定，而不是两个模块分别决定再合并。

好处是加减速和转向的衔接更丝滑，坏处是调试难度更高，两个控制维度耦合在一起，出问题不好定位。

蔚来2.0还做了一件重要的事，去掉传统轨迹规划层。

车不再先规划一条路径，而是直接输出控制信号给执行器。

路径信息压缩在模型的隐表示里，不显式出现。

其实看到最后，你会发现他们俩最大的区别不是系统的设计和技术差异，而是产品理念。

他们对用户和辅助驾驶之间的关系思考，至少看起来是不一样的。

至于怎么不一样？

你可以猜一猜。

DC娱乐网

【理想马赫VLA 和蔚来NWM 2.0】昨天理想发了一张智驾的架构图，我知道大

热门分类

【理想马赫VLA 和 蔚来NWM 2.0】昨天理想发了一张智驾的架构图，我知道大

热门分类

【理想马赫VLA 和蔚来NWM 2.0】昨天理想发了一张智驾的架构图，我知道大