听完了理想AITalk第二季的内容,核心内容还是之前理想在英伟达GTC大会上的

恨寒聊汽车啊 2025-05-08 11:01:18

听完了理想AI Talk第二季的内容,核心内容还是之前理想在英伟达GTC大会上的那篇演讲《VLA:迈向自动驾驶物理智能体的关键一步》,只是这次主讲人换成了李想,然后又补充了一些更详细的信息。

1、 理想做了一个32B云端VL基座模型,这个模型是专门用于视觉和语言的多模态基座大模型,可以处理长思维链、进行长任务拆解。同时蒸馏出一个3.2B的小模型,加上Action后训练部分,组合成一个4B的VLA司机大模型,这样双Orin X或者Thor-U的算力就能在在车端跑了。并且因为DeepSeek的开源,让理想的VLA研发加速了9个月的时间。

2、 理想的VLA司机大模型有两个比较特别的地方,一个是支持短CoT(思维链),一般两步到三步,否则延时太长,这样能够确保安全。这种短CoT可以解决比如“靠边停车”、“前方掉头”这类短指令,实现语音控制车辆轨迹。另外Action做完以后,还做了一个diffusion(扩散模型)的预测,这个主要根据性能会做出来4到8秒的一个diffusion的轨迹和环境的预测,这样就更接近人类驾驶。

3、 理想在做到了1000万Clips以后,在去年年底成立了一个大约100人的超级对齐的团队。这个团队要做的事情是VLA大模型的“价值观”要和人类驾驶规则去做对齐。比如说模型能力很强,但不遵守交通规则、经常去加塞等等,做出来一些让人类坐在车上感觉到不安全的行为。所以理想希望通过强化训练的环节,必须把人类的这些规则、习俗、驾驶习惯,对于很多东西的判断,变成整个预训练的反馈。

4、 李想个人认为并不会出现通用的Agent,而是每个专业领域做专业的Agent。他认为,VLA司机大模型要做好,所有的vision的语料,language的语料,和action其实都是和交通相关的,做不了一样的。

5、 关于端到端和VLA的关系,李想认为端到端是VLA的基础,是VLA的A的部分。只是VLA多出来了多语言的部分,还要多更强的3D vision和高清2D vision的部分。所以不做端到端+VLM是没有办法一步抵达VLA的,“虽然可能大家觉得第10个包子吃饱了,但前面每个包子其实都跳不过去。”

6、 李想反驳了那些说理想只有冰箱彩电大沙发、没有核心技术的说法。他举了一个例子,为什么大家做端到端和VLM很难?是因为这个Orin芯片并不支持直接跑语言模型。但是理想有编译团队,有芯片的能力,有主板设计能力,有操作系统能力,所以理想能够把两个 Orin-X带宽做到足够的大,它同样可以跑同等规模的VLA的模型。理想这方面的技术都是非常之扎实的,基本功和能力永远是无法逾越的。

汽场全开大v聊车理想AI Talk第二季李想说当前竞争环境下要练基本功

0 阅读:0
恨寒聊汽车啊

恨寒聊汽车啊

感谢大家的关注