现在的收益大部分来自于动作模型【VLA的A】的能力提升
10月份视觉语言模型【VLA的VL】会大幅度迭代
现阶段部分错误选路、场景理解失衡的应该能解决掉不少~
还有一个期待能否 将多角度信息 低损直接进L?
此外还有一个明确提升是VLA 召唤和行车的逻辑会进一步对齐~
所以算一下:①选路、场景理解提升 ②模型对齐 ③场景扩展
理想mindvla让每个人都有专职司机理想汽车[超话]
现在的收益大部分来自于动作模型【VLA的A】的能力提升
10月份视觉语言模型【VLA的VL】会大幅度迭代
现阶段部分错误选路、场景理解失衡的应该能解决掉不少~
还有一个期待能否 将多角度信息 低损直接进L?
此外还有一个明确提升是VLA 召唤和行车的逻辑会进一步对齐~
所以算一下:①选路、场景理解提升 ②模型对齐 ③场景扩展
理想mindvla让每个人都有专职司机理想汽车[超话]
作者最新文章
热门分类
汽车TOP
汽车最新文章