【理想AlTalk第二季李想面对面二为什么做基座模型及VLA是什么

德鲁大叔的车 2025-05-08 00:02:15

【理想Al Talk第二季 李想面对面 二 为什么做基座模型及 VLA 是什么 】

1. 既然都有DeepSeek,为什么理想还要做基座模型?

-因为我们的业务,并不是说只是做好语言模型就够了,我们车上其实要有对话,然后又有多模态,那这个仍然其实需要我们自己去训练一个根据我们自己需要的一个基座模型,包括我要去做VLA(视觉语言行动模型)。

因为这个VLA里边,V(vision 视觉)和L(language 语言)都和正常的是不一样的,我需要3D的vision(视觉),还有高清的2D的vision,然后token(词元)要用预训练,必须得涉及到更专业的车领域的语义语料,交通领域的语义语料,我们面向的家庭用户的语义语料来做训练。

很多的时候,大家在做VLA(视觉语言行动模型)训练的时候,做基座的时候说我要把VL(视觉和语言)也要连在一起,然后把VL(视觉和语言)的组合语料放进去,那这些无论是OpenAI还是DeepSeek,它都没有这样的数据,它也没有这样的场景和需求,也不去解决这样的问题,那只能我自己来做了。

只是好处是说 VLA 里边的这个language(语言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。

2. 所以一方面是拥抱了DeepSeek,另一方面你们把基座模型的团队还拆出去了,并且加大了投入,加多大?

-我觉得首先训练卡比他们今年的预期我们应该多买了 3 倍。

3. 你要训多大的模型?

-并不是一个固定的,就是我们现在的话,做出来的一个不同的版本,比如说我们给理想同学用的,会是一个300B的模型,就大概是个3000亿(参数)的一个模型,我们给辅助驾驶运用的 VLA 的,其实VL(视觉和语言)的部分,是个32B的模型。那包含其实我们真正工作中用的也会去用那个3000亿的这个模型,就大概现在是这样的两个版本。

4. 你现在觉得给基座模型打多少分?你希望 2025 年提升到多少?

-结果还没呈现呢,这才几月啊?我觉得没有什么捷径,虽然我们借用了一些能力,但是你没有办法直接去吃第十个包子。

如果你规则算法都做不好,你根本不知道怎么去做端到端,如果你端到端没有做到一个非常极致的水平,你连VLA(视觉语言行动模型)怎么去训练都不知道。

5. 今年你们的第一个AI的例会,你说DeepSeek更像是 Linux 推出,而你们要去追逐安卓时刻,你们准备怎么去争夺 安卓时刻 ?

-这个东西是一个比喻,比如说安卓其实是基于Linux开发出来的一个手机操作系统。那我们以语言作为基础,我们的VLA 是把vision(视觉)这部分做成最强的,然后把action(行动)也做好,再借助了L(language),就是语言的这个能力。

我觉得VLA(视觉语言行动模型)就比较像在汽车或者交通领域的更重要的一个大模型或者操作系统,我觉得这是我们的机会所在。

6. 今天的辅助驾驶其实走到了一个新的十字路口上,有的人说甚至觉得辅助驾驶应该被叫停。你怎么想?

-「我觉得黎明马上就要来了。」但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明,我觉得这是今天这么一个阶段。

正因为辅助驾驶行业遇到了问题,我最喜欢、最开心的方式,就是去解决行业解决不了的问题,我们愿意去解决各种行业遇到的问题,包括我们做操作系统,也是因为过去的时候,传统的那种车控和智控的操作系统性能差,开发缓慢,芯片匹配周期长的这些问题。「这些问题(存在)恰恰是我们的价值所在。」

7. 为什么人类一定需要辅助驾驶呢?为什么科技不能就此止步?

-只要人类会雇佣司机。我觉得人工智能技术其实就是把类似这样的一些功能和角色,去变成真正的生产力、生产工具,然后去进行替代。

8. 从用户语言来讲,什么是VLA(视觉语言行动模型)?

-对于我们理想汽车而言, VLA是一个「司机大模型」,像人类的司机一样去工作的一个模型。那我觉得到达 VLA (司机大模型)它不是一个突变的过程,其实它是一个进化的过程。

9.VLA的三个阶段

-第一个阶段是我们从2021年开始,通过机器学习的感知,配合后边的规则算法,包括规划、控制、执行这些规则算法分段式的。我觉得第一个阶段比较像昆虫动物的智能。它有既定的规则,还要依赖于高精地图,就比较像蚂蚁的行动和完成任务的一个方式,而且效率比较低。它就那么小的一个脑子,你让它去完成复杂的事情,几乎不可能的。所以你就不停地限定、限定,几乎把它做成了一个有轨交通的方式。这跟蚂蚁非常相似。

第二个阶段是我们从2023年开始搞研究,2024年推出的端到端。端到端比较像什么呢?端到端比较像哺乳动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹。所以它应付大部分的泛化是没有问题的,然而去面对它从来没有学到的、特别复杂的,就会遇到问题。所以这时候我们也会配合,将视觉语言模型 VLM 放进来。但是我们能够用到的视觉语言模型这些开源的,用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。

我觉得到了VLA(司机大模型),就是完全人类的运作方式了。它会像人类一样,用3D的vision(视觉)和2D的组合,去看整个真实的物理世界,也包含它能够去看懂导航软件,这样的软件是怎么在运行的,而不是像VLM(视觉语言模型)那样只能看到一张图片。另外一方面,它有自己的整个脑系统,不但要看到物理世界,还能够理解这个物理世界。它有它的language(语言),然后它也有它的CoT(思维链),有推理的一个能力。我觉得第三个,它能够像人类一样的,真正地去执行这样的行动。

理想 AI Talk第二季

0 阅读:0
德鲁大叔的车

德鲁大叔的车

感谢大家的关注