为什么从E2E 转向VLA
主要有以下几个考虑:
1️⃣:E2E 百万,千万级视频素材,场景的分类大部分还是人类牛马去定义的,大概能定义个几十类,100类已经很不容易了。
VLA可以更加不忌口的吃各类数据【当然也要人工分类】
2️⃣:将视频数据训练成一个E2E模型后,再重新加数据,需要重新去训练新的E2E模型。
VLA基本都是从云端大参量蒸馏;
3️⃣:E2E很难实现真的智能驾驶,而是模仿驾驶;
4️⃣:VLA可以外挂跨城市知识库,E2E得单独训练
为什么从E2E 转向VLA
主要有以下几个考虑:
1️⃣:E2E 百万,千万级视频素材,场景的分类大部分还是人类牛马去定义的,大概能定义个几十类,100类已经很不容易了。
VLA可以更加不忌口的吃各类数据【当然也要人工分类】
2️⃣:将视频数据训练成一个E2E模型后,再重新加数据,需要重新去训练新的E2E模型。
VLA基本都是从云端大参量蒸馏;
3️⃣:E2E很难实现真的智能驾驶,而是模仿驾驶;
4️⃣:VLA可以外挂跨城市知识库,E2E得单独训练
作者最新文章
热门分类
汽车TOP
汽车最新文章