李想解读VLA司机大模型表示对于理想汽车而言,VLA(视觉语言行动模型)是一

访蕊聊汽车 2025-05-07 21:21:44

李想解读VLA司机大模型

表示对于理想汽车而言, VLA(视觉语言行动模型)是一个司机大模型,像人类的司机一样去工作的一个模型。简单说理想汽车经历了以下三个阶段:

第一个阶段是从2021年开始,通过机器学习的感知,配合后边的规则算法,包括规划、控制、执行这些规则算法分段式的。

第二个阶段就是从2023年开始搞研究,2024年推出的端到端。

第三个阶段,VLA就是完全人类的运作方式了。它会像人类一样的,用3D的vision(视觉)和2D的组合,去看整个真实的物理世界,也包含它能够去看懂导航软件,这样的软件是怎么在运行的,而不是像VLM(视觉语言模型)那样只能看到一张图片。

另外一方面,它有自己的整个脑系统,不但要看到物理世界,还能够理解这个物理世界。它有它的语言,然后它也有它的思维链,有推理的一个能力。就比如遇到施工路段,它不会停在那里不知道怎么办。极端来说,给它3天的时间,它就能够学习完这样的特殊路况。

0 阅读:6
访蕊聊汽车

访蕊聊汽车

感谢大家的关注