【理想马赫VLA 和 蔚来NWM 2.0】
昨天理想发了一张智驾的架构图,我知道大家都在等一个 NWM 和 马赫 VLA 的分析。
刚落地,在飞机上我把能找的资料都快翻烂了,写了一些我的理解,我也是互联网学生,写错了大家指出就行了,别怼天怼地,实在不行,你亲自写。
好了叠甲完成,现在开始。
先说共同点
在两家的资料里,不约而同都出现了 World Model 这个词。
理想的叫 Predictive Latent World Model (预测式隐世界模型),藏在架构深处,负责 隐式推理;
蔚来的叫 NWM(NIO World Model),是整个系统的核心主角。
但同样是世界模型,两家对它的定位完全不一样,这个不一样,解释了后面所有的技术区别。
一、架构起点:信息怎么进去
理想:多路编码并行输入
看理想架构图,左侧是四条并行的输入通道:
1. Long-term Memory / User Preference(长时记忆/用户偏好)
这是理想新增的输入通道,记录用户的驾驶习惯和偏好,比如用户喜欢激进还是保守的变道风格、常用路线等
2. Encoder(解码器),标准传感器编码器,处理原始感知数据
3. 3D ViT Encoder(3D视觉编码器),处理多视角摄像头图像,输出3D视觉token序列
4. Text Tokenizer(文本分词器),处理语言指令。
四条通道并行编码后,统一进入 Native Multi-Modal Transformer(原生多模态Transformer)。
这意味着理想在输入层面就把不同模态对齐到同一个表示空间里了,语言、视觉、用户偏好、历史记忆,统统编码成统一的token序列,共享后续的处理。
这里有个关键点:语言和视觉在进入Transformer之前就已经完成了模态对齐,不是到了Transformer里才互相看见。
蔚来:传感器直连世界模型
蔚来的NWM 2.0架构里,没有显式的Text Tokenizer路径。
蔚来的逻辑是:世界模型直接从传感器数据(摄像头、激光雷达、毫米波雷达)里学习,语言是后来叠加的模块,不是原始输入。
这和任少卿一直强调的视频是比语言更底层的认知一脉相承,婴儿不需要语言就能学会躲避障碍物,驾驶能力同样不需要语言介入就能学会。
所以蔚来选择让世界模型直接从原始传感器流里 看 世界,语言是给人类交互用的,不是给机器决策用的。
当车辆的智能程度越高,我们越要想车在想什么?
这是差异最大的地方。
理想用一条链路同时跑两件事,看理想的架构,中间层有四个并行模块:
- Prefill KV-Cache:推理时的上下文缓存,加速后续token生成- Reasoning Decision(思考决策):System-2的显式推理,慢思考模块- Latent World Model(隐世界模型):在隐空间里做未来预测,不是生成视频,是在压缩空间里推演场景演变- Trajectories(轨迹):最终输出的轨迹
关键在于这四个模块不是串行的,而是并行共存于同一个前向传播里。
思考决策和隐世界模型同时运行。
Reasoning Decision负责显式的语言式推理,当前是什么场景,应该用什么策略;
Latent World Model负责隐式的未来推演,如果我这样做,接下来几秒会发生什么。
两者结果互相参考,最终生成轨迹。
这就解释了为什么理想叫它 Predictive Latent World Model。
它不是靠生成视频来想象,而是在隐空间里做预测。隐空间是经过压缩的高维表示,信息密度高但不可直接解读,所以叫 隐空间。
这种设计的好处是,计算效率远高于显式视频生成,但代价是无法直接可视化 车在想什么。
你想知道系统在想什么,只能通过Decode Output 来看它的文字解释,而不是看它生成的视频。
蔚来NWM 2.0的决策逻辑完全不同。
架构核心理念从 生成-筛选 变成了直接生成唯一最优解。
蔚来1.0时代是,感知到 生成216条候选轨迹 到 规则打分 再到 选最优 最后 执行
蔚来2.0时代:感知直接到世界模型直接输出唯一最优轨迹 再 执行
这个转变的关键在于:2.0版本的模型不是在运行时 挑 轨迹,而是在训练阶段就已经通过强化学习学会了 什么样的决策是最优的。
运行时不需要再生成216条再筛选,直接输出一个确定的、最优的结果。
所以蔚来2.0的latency更低、可解释性更强,因为只有一条轨迹可以回溯,但代价是,训练难度更高,你必须确保模型在训练时见过足够多样的场景,否则遇到没见过的就容易出错。
蔚来的另一个关键机制是,每100毫秒重新生成一次。
不是按一条既定轨迹跑到底,而是高频重评估:每个100毫秒窗口,模型重新推演216种可能性,重新找最优解。
这意味着蔚来的系统永远处于 实时思考 状态,动态响应能力很强。
在这些之下其实对模型的训练要求更高了。
从架构图底部七个模块可以看出理想的完整训练体系:
第一层:Native Multi-Modal Transformer
基础是原生多模态Transformer架构,视觉、语言、动作共享同一个backbone。
训练时三者的梯度同时回传,互相约束。
第二层:Predictive Latent World Model + System-2 Explicit Reasoning
隐世界模型负责在隐空间里做未来预测,System-2负责显式语言推理。
两者是并行的,隐世界模型不需要语言参与就能推理,但System-2的推理结果可以注入到轨迹生成里。
这里System-2的定位更像是 解释器 而不是 决策者,它输出的是当前场景的语义理解和决策的理由,这些信息帮助人类理解车的行为。
但控制信号直接从隐世界模型出来,不经过System-2。
第三层:Closed Loop RL for Generalization(闭环强化学习)
这是让模型能突破人类数据上限的关键。
理想通过在仿真环境里设定目标,让模型自己探索怎样才能达成目标,而不是单纯模仿人类司机。
仿真器里的奖励函数,成功抵达目标给正分,违章给负分驱动模型自主优化策略。
蔚来NWM 2.0的训练体系是三层叠加:
第一层:世界模型 + 自监督视频预测
训练目标是给定过去3秒视频,预测接下来会发生什么。
模型从海量视频里自己学会物理规律,不需要人工标注。
第二层:监督微调(SFT)
蔚来在2026年5月这次升级里,把SFT(监督微调)引入了训练流程。
在自监督视频预测之后,用高质量的人类驾驶数据做精细的行为雕刻,让模型的输出更像正确的老司机,而不是平均水平的司机。
第三层:闭环强化学习
蔚来是国内第一个真正量产落地完整闭环强化学习的自动驾驶系统。
它先是构建仿真环境,设定一个目标线,比如成功通过这个路口,让模型不断尝试,成功穿越给奖励,用时短额外加分,压实线扣分。
模型在仿真器里自我进化,探索出超越人类司机习惯的最优策略。
蔚来强调,这种方式不需要SD+(地图指引),不需要专家数据,只要仿真环境能构建出类似场景,模型就能自己学会。
这是泛化性最强的训练方式。
其实在整个辅助驾驶系统里最重要的是,怎么让决策怎么变成好的动作。
理想这边从架构图看,行为输出的核心技术是 MoE Action Parallel Decoding。
它不是整个模型所有参数都参与每次推理,而是动态选择最相关的专家子网络来处理当前输入。
这让模型可以很大,但不拖慢推理速度。
用并行解码的方式,轨迹的所有点同时生成,不是逐个自回归。
一次性输出完整轨迹,然后执行。
这是量产架构,其实和之前论文里提到的Flow Matching有出入。
量产版本选择了更工程化的MoE+并行解码,而不是论文里的扩散模型路线。
之前 8.0、8.1、8.2 选道很垮,轨迹生成非常差,估计和扩散有关。
蔚来NWM 2.0的动作输出有一个重大变化是:横纵向控制一体化。
1.0时代:横向(方向盘)由模型控制,纵向(速度)由模型+规则共同控制
2.0时代:横向和纵向完全由模型一体化输出,不再有规则参与的双轨制。
这意味着方向盘转角和油门/刹车力度,由同一个模型同时决定,而不是两个模块分别决定再合并。
好处是加减速和转向的衔接更丝滑,坏处是调试难度更高,两个控制维度耦合在一起,出问题不好定位。
蔚来2.0还做了一件重要的事,去掉传统轨迹规划层。
车不再先规划一条路径,而是直接输出控制信号给执行器。
路径信息压缩在模型的隐表示里,不显式出现。
其实看到最后,你会发现他们俩最大的区别不是系统的设计和技术差异,而是产品理念。
他们对 用户 和 辅助驾驶 之间的关系思考,至少看起来是不一样的。
至于怎么不一样?
你可以猜一猜。