做VLA是想充分用好LLM 可以理解万物的能力
自动驾驶或者从L2的驾驶辅助很难依赖几个有限的模态信息逐步跃升到全自动驾驶
对于多模态信息【视觉,听觉,语义地图,交规,定位,意图等等】这类信息,仅仅依靠人工接口是很难完全对齐
这也是为什么需要用一个AGI【LLM】 去做🧠,去实现资源调用和决策输出
如果觉得我说的不对,那就是我说的不对[老师好]
做VLA是想充分用好LLM 可以理解万物的能力
自动驾驶或者从L2的驾驶辅助很难依赖几个有限的模态信息逐步跃升到全自动驾驶
对于多模态信息【视觉,听觉,语义地图,交规,定位,意图等等】这类信息,仅仅依靠人工接口是很难完全对齐
这也是为什么需要用一个AGI【LLM】 去做🧠,去实现资源调用和决策输出
如果觉得我说的不对,那就是我说的不对[老师好]
作者最新文章
热门分类
汽车TOP
汽车最新文章