根据目前公开信息+第三方公开研报+我们自身的产品体验来浅浅的主观推测下一阶段XNGP的工程落地的整体构架[举手]
首先,毋庸置疑的是目前570版本的XNGP仍然是感知+规划/决策的两个大参量神经网络并联调优出轨迹的构架[666]
那么既然新一代图灵(三颗)算法会上 VLA-OL+VLM 【这里还有公开信源指出这个VLA-OL中将实现超过20帧的刷新速度,VLM可能是1-2帧,】。两颗用于自动驾驶,一颗用于座舱
XNGP的改变有两个可能,我们觉得前者的可能性更大[思考]
第1️⃣种做法:在现在XNGP的感知+规划/决策的模型中额外叠了一层多模态的LLM网络,从整体构架上看应该会有三个并行网络【大感知/多模态LLM/规划决策】[彩虹屁]
其中原先负责动静态的感知网络和现在570/575保持一致,但是在图灵上整个感知网络的参数会大幅度提升;
此外最重要的应该会有几个6B【不确定】的多模态LLM网络,这个可以是直接在感知与规划决策两个网络的中间层直接以需求任务的方式插进去[并不简单]
多模态LLM这里主要负责几个事情:
1️⃣将AD感知视频流的信息转成文本Token特别是语言信息叠在前面的那个感知网络的BEV空间中,
2️⃣应该会调用座舱内的语言信息【Like 驾车指令等等】
3️⃣这个多模态LLM大概率具备Cot的能力,这里应该会有一个模块用来分别读现在BEV整合感知结果和高德地图的API接口,估计大概率会先做第一个功能就是将下一个/下下个路口的选道决策规划提前确定,减少无效变道和错误选道。
因此,整体上看:这三个神经网络,在这个构架里面多模态的LLM应该是起到一个承上启下的工作,当然这个LLM也提供单独的语言信息理解和帮助后面规划模型提供更早的确定性语言理解需求【甚至提供部分减速、绕行的确定性决策点】
这里有几个点:
1️⃣ 明确这个VLA-OL是 一个快系统所以大概率是直接吃感知源信息【摄像头的帧率也是这个速度】,也符合双图灵AD构架;
2️⃣如果要做顶层负责的规划,甚至上Cot,那么这个速度就一定泡不到20Hz,至少我的理解跑不到20Hz,所以我怀疑还有一个顶层规划的LLM在做深度理解【其实就是专门解一些复杂的场景,不过这个暂时应该不会上,类似AD深度整合了导航、互联网、现实路况后发现前面要卡死了,我提前走小巷子开溜 】
3️⃣这个工程最大的难点是如何对齐传统感知和LLM模块语言感知信息对齐的问题【前者语言能力理解差/后者空间理解能力差】。但是确实也是目前基于现有构架最有可能做出来的场景。
✅预测一下场景体验功能:
常规的 可变/潮汐/地下车库寻路/标牌/记忆等等应该都可以;复杂场景中,类似堵车不要动/远离救护车等特种车辆/特殊场景减速(视野不佳的的路口等等)/人车混流持续减速谨慎驾驶/声控车等等应该都行。
下一步做的:主动超视距绕行、主动强制择优选路等等估计要下一阶段。
第2️⃣种也有可能的做法:直接切超大的神经网络,ONE Model 全局 Token化的VLA。那就是学术机器人领域的VLA。大家都知道就不概述了[doge]
所以大家觉得是哪个可能性更大呢?大v聊车何小鹏回应g7将搭载3颗图灵芯片