这两天看不少车企都发布了自身的VLA模型，总的来说都是云里雾里。想子的MindV

这两天看不少车企都发布了自身的VLA模型，总的来说都是云里雾里。想子的MindVLA-o1，透露的信息最多，应该算是比较清晰的。以下是我个人理解

1、最核心的点，MindVLA 是统一原生多模态的VLA模型。具备「多模态」3D Vit，支持包括语言信息、摄像头，点云等多模态信息。

这里激光雷达主要当成复检工具，利用激光雷达点云引导模型理解真实空间结构，使3D Vit同时具备语义理解与三维感知能力。

李想把这类比“人类的大脑”，会理解3D空间、语义信息。但做到这点很吃算力和效率，所以必须软硬件结合，上M100自研芯片。

2、理想这套MindVLA-o1用了世界模型，来应付复杂的场景。

云端用大量视频训练，车端部署轻量化世界模型推演（个人理解），最后世界模型、多模态推理、驾驶行为进行联合训练，输出轨迹。

3、本质上这是一套具身智能模型。既可以控制车辆，也可以控制机器人，并用于训练不同形态的物理智能体。自动驾驶只是物理AI的起点。理想汽车李想称机器人也用VLA

DC娱乐网