理想汽车的VLA司机模型,在最后输出轨迹前,会经过diffusion进行扩散。其实地平线也有类似的方案,所以这个diffusion扩散到底是什么意思?
简单研究了一下,diffusion的核心是可以预测多模态轨迹(李想提到可以预测4-8秒),让自动驾驶更丝滑、更安全。
传统的轨迹输出,比较机械。训练数据里高频出现的答案会反复用,但遇到需要灵活变通的场景(比如突然窜出一辆电动车需要紧急避让),就容易卡壳,要么只会选最保守的路线,要么干脆给出不合理的危险动作。
通过diffusion扩散模型之后,它能一次性生成多种可能的路线,而且保证这些路线既符合交通规则,又不会撞到障碍物。
这东西听起来有点像「世界模型」的轨迹输出能力,应对复杂场景场景和长尾场景,不过具体效果就不清楚了[思考]全民智驾新能源汽车