李想在思考什么?聊聊对理想 VLA 的看法 ...
1、李想对于 VLA(视觉语言行为) 的预判,比很多人坚决且大胆。
甚至可以追溯理想对这次改款的信心,不在车本身,而是更注重主动安全和基于 VLA 的 Thor-U 智能版的换新。
研读了李想昨天的对话,发现李想本人对于 AI 的理解,并不是浅知识性,而是从知识储备、公司策略到组织上的一系列构建。对 AI 内部从讨论、研究再到开发,最后看到产品价值点到推进上市。所以今晚 L 系列的发布也是一个重要的拐点。
昨天李想聊到的 VLA ,很多理论也跟当时周光跟我分享判断基本一致。我惊讶于李想对于非常强的学习能力外,还有他对整个组织的影响。
从 DS 春节出来后,李想就开始讨论如何在 DS 开源基础上优化上自己的 VLA,就是端到端的多模态化。无论是理想 CTO 谢炎、理想基座模型负责人陈伟等都在春节的讨论中,甚至让原本计划 9 月发布的 VLA ,比预期还要更快。
其次在 VLA 训练中,理想的基座模型并不是做通用模型,所以是把 VL 也就是视觉、语言一起训练,这里面的视觉(V)需要特殊的基于行车环境的 3D 以及高清 2D 图像,车端上的行为(A)也要有更专业的汽车领域的数据和知识,这也是理想做基座模型的原因,因为不可替代。
2、行业并不会存在通用的智能体。
这个逻辑和周光当时聊天的观点基本一致。
周光认为 AI 从一开始的初级专才(L2)到通才,最后会到高级专才(L5)转变。而这个专才就是能够针对自动驾驶开发的智能体,也无可替代。
因为整个行业不会出现一个通用的 Agent(智能体),啥都懂啥都干还都干得好。因为不同行业里的 VLA ,里面的 V、L 和 A (视觉、语言和行为)都不一样。
而元戎除了部署 L2 也尝试在做上了 RoadAGI,也就是不仅在道路上的汽车,而是开发外卖、小车等移动机器人,这是未来通向高级专才的渠道之一。
而理想要做的改变是怎么让 AI 真在实现用户价值。这个能力的核心,是从一个信息工具变成一个生产工具的转变,这是和用户构建信任的基础,也称之为司机大模型的原因。
3、VLA 会变成一个竞争围墙。
两个人的判断出奇一致,规则时代做不好的人就做不好端到端,端到端做不好的人更做不了 VLA 。所以 VLA 的出现不是一个技术切换,或者能迅速追平的技术。
因为 VLA 要有一个更强大定义的基座模型、数据理解、又有预训练能力,强化学习各系列能力,还要如何把蒸馏后的模型塞进不富裕的算力芯片里。研发上是一个体系,而不是一套算法。同时研发上也变成一个组织协同,而不是某位算法大佬主导一整个革命的时代。
其次是体验的围墙,VLA 核心体验就是拟人化。VLA 大家开始普及后,其中的 A 带来的体验也会有巨大的差异。 其次通过强化学习等手段,VLA 的安全模型也能够对应的提升。
最后是持久战,VLA 更重视积累。第一阶段大家拼的场景,从高速、城区、车位到车位等场景,但 VLA 拼的都是 AI 体系、技术积累,组织协同和长期投入。
这里和大家分享一段李想的回答:
什么是智慧呢?智慧就是我们跟万物的接触。
如果你没有去过森林,没有在森林里,认真地玩儿、住过几天,那你可能觉得木头就是做筷子的,就是做纸的,就是做桌子的,而并不是意味着它是一个生命,它是跟我们不同的生命,对吧?你没有跟孩子在一起长时间的生活体验,没有跟他们一起去玩,你就没法真正地去理解孩子。那什么是智慧?我觉得智慧就是我们和万物的关系。
但是怎么去提升我跟万物的关系?首先要有足够的时间跟万物去接触。所以我在讲的一个很重要的一个问题,就是今天我们很卷,但这是恰恰是真正的人工智能的意义...
理想AI Talk第二季理想汽车