读智能涌现： AI时代的思考与探索06自动驾驶(下)

1. 难点与挑战

1.1. 在技术难点、社会影响、政策法规等层面还有不少需要克服的困难

1.2. 仅在研发层面，自动驾驶相关技术的最难点已被攻克，而且相应的解决方案也越来越成熟，只是自动驾驶汽车的规模化应用还需要时间

1.3. 在所有的技术难点中，处于第一位的一定是安全性问题

1.3.1. 要让自动驾驶的安全性较人类驾驶员高出一个数量级，就需要深度学习与车路协同两大方向性技术为其提供坚实的支撑

1.4. 在实际环境下，自动驾驶汽车总是会遇到测试、试验中从未碰到的情况

1.4.1. 既要利用算法来提升其泛化能力，也要让算法本身具备更佳的透明性、可解释性，同时还需要利用海量数据不断迭代算法

1.5. 车路协同也是推进自动驾驶领域创新需要重点关注的课题

1.5.1. 车辆的多维感知、数据汇集、瞬间决策，单单依靠单车智能是不够的，必须结合车路协同，与路侧的智能化基础设施联动起来解决长尾问题

1.5.2. 智慧的道路及路侧设备能够实时为车辆输入更多维度的信息和数据，从而提高自动驾驶系统在规划、决策、执行时的安全性

1.5.3. 车路协同还能为自动驾驶车辆进行技术层面的冗余备份，以应对随时可能出现的突发情况

1.6. 在推动自动驾驶落地、普及之前，不能不充分考虑新的技术、新的产品、新的产业可能给社会造成的影响

1.7. 在全球范围内，不同的国家和地区都面临同样的挑战—政策与监管滞后于前沿技术的发展

1.7.1. 就自动驾驶领域而言，无论是测试、试运营、专利保护与反垄断、保险设计、事故责任认定，还是用户隐私保护等相关规则与政策的跟进，都是相对滞后的

1.7.2. 中国有较良好的政策环境，国内用户对于包括自动驾驶在内的新技术的应用普遍持更开放、更期待的心态，愿意拥抱新技术、体验新物种

1.8. 主要技术挑战

1.8.1. 自动驾驶场景中的世界模型代表了侦测、感知的输出，以及决策、规划的输入，因而需要持续优化的是感知AI的真值(Ground Truth)标注方法与决策、规划AI的规则设计方法

1.8.2. 过去的世界模型乃是通过有限语义的点、线、面、体来实现对物理世界的极简化表达，通常称为“闭集世界模型”

1.8.3. 研发者需要的是能够感知万物的“开集世界模型”来编码全量场景信息，而不是编码极简信息

1.8.4. 与以开环为主的感知AI算法相比，决策、规划AI由于是闭环系统，也就给监督式的模仿学习(Imitation Learning)带来了很大的挑战

1.8.5. 模仿学习通过观察专业人士的示范、效仿他们的行为，尝试在相似的情境中采取相同的行动来取得进步，常用来训练自动驾驶系统的基础驾驶技能

1.8.6. 用于模仿学习的绝大多数数据是正常驾驶数据，而不是危险驾驶数据

1.8.7. 现实中又不可能依靠大量司机（无论是人类还是机器）遍历极端长尾的危险驾驶状态，也就极难获取相关数据来训练决策、规划AI

1.8.8. 若是采用强化学习来提升决策、规划AI的性能，又很容易陷入“如何设定奖励函数”的泥潭，效果可能还不如直接设计规则好

1.8.9. 与感知AI处理的高内聚性数据（在特定特征空间内非常集中或相似的数据）分布不同，训练决策、规划AI的难度较高

1.8.10. 如果仿真器能做到足够真实，基于策略的强化学习(On-Policy)或许可以显著提升AI的性能，甚至超越人类驾驶员

1.8.11. 传感器的仿真渲染随着神经辐射场(Neural Radiance Fields, NeRF)、高斯溅射(Gaussian Splatting)、扩散模型(Diffusion)等技术的普及而日渐成熟

1.9. 回归所有人最关心的自动驾驶系统的安全问题

1.9.1. 智能驾驶决策模型可解释，系统能清晰地解释其决策过程和依据，以帮助开发者、用户及相关者更好地理解系统的行为

1.9.2. 能够彻底规避人类驾驶员可能做出的危险决策，在各种复杂和紧急情况下，系统能够做出更安全的选择，避免出现人类可能犯的错误

1.9.3. 客观评价规划算法，对自动驾驶系统的规划算法进行公正和恰当的评估，从而识别和改进算法中的不足，提升系统的整体性能

1.9.4. 有效评估自动驾驶系统的智能能力，包括系统在实际驾驶过程中的感知、决策和执行等各方面的能力

1.10. 症结

1.10.1. 交通环境的变化规律不够清晰，自动驾驶在应对特殊场景下的突发问题时仍存在失效的风险

1.10.1.1. 交通的本义是往来通达

1.10.1.2. 状态通常稳定的车（机器）反而会因为情绪不稳定的人而成为影响交通安全的因素

1.10.1.3. 自动驾驶汽车不会产生情绪问题

1.10.1.4. 道路环境的变化有时也会出乎自动驾驶系统的“意料”

1.10.1.4.1. 复杂的、充满变数的道路动态因素提升了自动驾驶感知AI认知难度的上限

1.10.1.4.2. 过时或未被标注的道路条件因素（如破损、坑洼、遗洒等客观条件，以及拥堵、事故、管制等主观条件）挑战了自动驾驶车辆软硬件性能适应能力的上限

1.10.1.4.3. 暂且做不到百分之百稳定无损耗传输的“云-车”信息交换系统因素，如通信基站出现故障、通信网络被攻击等，考验了车联网多维性能的上限

1.10.1.5. 交通环境整体的复杂多变，意味着基于这种交通环境而生的自动驾驶车辆需要具备高级别的决策系统水平

1.10.2. 单车感知长尾问题限制了自动驾驶车辆运行设计域(Operational Design Domain, ODD)

1.10.2.1. 运行设计域通常指自动驾驶系统功能设定的运行条件，包括环境、地理和时段限制，交通流量及道路特征等

1.10.2.2. 运行设计域限制是保障车辆安全的重要手段，却在某种程度上制约了自动驾驶的规模化、商业化落地

1.10.2.2.1. 道路类型，如高速公路、山区道路、无信号灯的十字路口等

1.10.2.2.2. 环境条件，天气状况（雨、雪、雾、强风等）和日照状况（昼或夜、逆光或弱光）等

1.10.2.2.3. 其他方面，包括地理区域（城市、乡村、山区、无人地带等），速度限制，通信条件，收费站分布，易混淆和误判的元素

1.10.2.3. 感知长尾问题是当前限制自动驾驶车辆落地后安全的主要问题之一

1.10.2.3.1. 准确感知、识别和高精度定位等问题一度未能得以解决

1.10.3. 自动驾驶车辆的成本仍有待降低

1.10.3.1. 即便近年来传感器元件的价格在不断下降，但如果将这些元件的成本叠加在一起，不难想象成本会有多高

1.11. 自动驾驶的最大挑战来自多变场景下的决策泛化能力不足、长尾困境中的各种安全风险和隐患，以及规模化、商业化落地成

1.12. 通过将单车智能系统与车路协同系统双向耦合，实现信息交互协同、侦测感知协同、决策控制协同，智慧的交通环境能够极大地拓展单车的感知范围，提升其感知能力

1.13. 引入“人-车-路”的多维数据，更能实现群体智能或称“多车智能”，从根本上突破单车自动驾驶场景中遇到的感知与决策瓶颈

2. 人工智能算法

2.1. 自动驾驶算法栈分为三个部分：目标与障碍物、道路结构、决策规划

2.2. 在早期的自动驾驶系统研发过程中，算法能力不够强大，系统主要依靠预先设定的规则来识别和处理目标与障碍物，对高质量传感器（如价格昂贵的激光雷达）有着较高要求，成本因此居高不下

2.3. 道路结构部分则往往借助实时、在线调用离线高清地图来实现定位，决策规划部分也大抵是通过预定规则来完成，导致系统泛化能力和智能度较低，只能在特定区域内运行—就像是超大版本的家用扫地机器人

2.4. 2015年以后，深度学习技术的发展赋予了AI感知目标与障碍物的能力，降低了自动驾驶系统对高性能激光雷达的需求，研发者因而可以采用低成本激光雷达甚至纯视觉方案来完成实时感知

2.5. 对于高清地图的依赖度极高，这无疑限制了自动驾驶的应用范围和安全表现

2.6. 目标与障碍物感知、道路结构感知两部分技术趋向稳定，令自动驾驶系统的性能有所提升，但决策规划部分仍以规则处置为主

2.7. 新的技术演进趋势意味着，感知AI和决策、规划AI已被整合为一个统一的AI模型，即端到端的AI模型

2.7.1. 从自动驾驶技术架构的变迁来看，几乎每一次AI技术的进步都能为其带来架构的重大升级

2.8. 迄今为止，工业界的主流方案使用的大多数AI技术仍停留在2020年前的水平

2.9. 自动驾驶系统的复杂度可能比其他智能硬件（如手机和PC）系统的复杂度高百倍

2.10. 云当然也很重要，但作为系统的研发者和设计者，必须考虑到可能存在网络无法覆盖的盲点、死角区域，以及因设备故障或性能不足而导致的数据延迟与卡顿等情形，因此必须使车端强大到足以脱网解决一切问题，且每一次决策都应是及时、安全、精确的

2.10.1. 如果将大部分计算任务放在云里，各种始料未及的因素就有可能导致决策延迟、决策错误

2.10.2. 绝大部分计算与决策任务（比例至少占90%）必须放在车端来执行

2.11. 自动驾驶车辆首先是车，其次才是自动

2.11.1. 是车就得能开，即使没有云、没有路、没有车联网，车也不能停在路上罢工，还是得继续安全行驶

2.11.2. 开车上路，智能并非必需，没有智能时还有基本功能，这才是自动驾驶车辆该有的样子

2.12. 悖论：研发者希望收集到更多事故的数据，但自动驾驶系统的设计初衷是尽一切可能避免事故

2.12.1. 生成式AI就变得很重要，会利用扩散模型在模拟器里生成大量的边角案例拟真数据

2.13. 有时自动驾驶系统的决策“黑盒”味很重，也就是说，其做出决策的计算过程和逻辑推理步骤不够清楚

2.13.1. 生成式AI能支持系统用自然语言与研发者进行交流，最终可能会让黑盒变得越来越透明

2.14. 自动驾驶系统固然重要，整体交通系统也非常重要

2.14.1. 首要任务是将真实数据融入虚拟场景，以真实数据生成新的数据，再以这些数据来“喂养”系统，从而构建一个端到端的闭环

2.15. 虽然人类司机的水平良莠不齐，但优秀的司机能够对车辆进行几近完美的驾驭

2.15.1. 采用非侵入式脑机接口来深入研究优秀的司机做决策的原因和过程，并将有关“人脑如何处理与分配注意力”的宝贵数据整合到注意力模型中，再将模型运用于自动驾驶系统的AI算法更新

3. 中美在互鉴中成长

3.1. 美国

3.1.1. 美国自动驾驶领域的研发是由企业主导的

3.1.1.1. Waymo、通用汽车旗下的Cruise、特斯拉等，此外还有大量的初创企业

3.1.2. 美国在自动驾驶领域的研发基本聚焦于单车智能

3.1.3. 美国自动驾驶在垂直领域的应用相对较多

3.1.3.1. 所有的采矿设备都是由卡特彼勒的技术专家远程实时监测与操控，而且卡特彼勒的矿山之星(CAT®MineStarTM)自动驾驶系统早在2013年便开始商用

3.1.4. 由于起步时间早、技术积淀深，美国自动驾驶行业在底层实力方面更强

3.1.4.1.1. 大受追捧的英伟达大算力芯片Orin X早在2021年就已大规模量产上车，提供高达254 TOPS（处理器运算能力单位）的计算能力，支持L2+～L5级别的自动驾驶

3.1.4.1.2. 更强大的Drive Thor计算平台，则可实现最高2000 TOPS AI算力以及2000 TFLOPS浮点算力，大大提升了芯片算力水平

3.1.4.2. 英特尔旗下Mobileye研发的EyeQ系列芯片则在视觉处理和自动驾驶算法方面表现出色

3.1.4.1. 英伟达的Drive系列芯片提供了强大的计算能力和AI处理能力

3.2. 中国

3.2.1. 对车路协同技术给予足够的重视，并很快确定了将车路协同作为智能网联路径方向的政策

3.2.2. 联动恰恰是中国的优势

3.2.2.1. 车路协同不仅对未来的自动驾驶有利，还能够为目前正在使用的4.4亿辆机动车赋能

3.2.3. 在操作系统、软件算法等与自动驾驶底层能力密切相关的领域，中国玩家在厉兵秣马之前仍需卧薪尝胆

3.3. 自动驾驶涉及的技术多、涵盖的领域广，其发展路径呈现出多元化的态势

3.4. 不断增容的数据、持续优化的算法构成了一道进步的阶梯

3.5. 规模

3.5.1. 规模带来的优势之一是数据量

3.5.1.1. 未来最珍贵的资源不是石油，而是数据和算法

3.5.1.2. 数据的最大用途自然是驱动自动驾驶体验的持续提升，打造“数据闭环”

3.5.2. 规模带来的优势之二是成本下降

3.5.2.1. 硬件成本的下降有利于自动驾驶车辆大规模量产上市，以及功能车辆的渐进式智能化

3.5.3. 规模带来的优势之三是商业闭环

3.6. 成式自动驾驶仿真平台也已就绪—将车端与路端实时采集的真实数据传输、汇总至平台，通过图神经网络(Graph Neural Network, GNN)和图结构表征(Graph-structure)学习识别背景环境与交通要素，再经由自然语言驱动的AIGC生成式模型来生成仿真场景背景与交通要素，各种语义信息、深度信息、场景背景、车辆外形、行驶轨迹、行人与其他环境要素等皆可编辑

3.7. AIR ApolloFM于2024年6月诞生，这是全球首款支持实车部署的开源端到端自动驾驶系统，填补了国内自动驾驶行业在开源端到端实车部署方案上的空白

4. 新兴技术发展周期

4.1. 科技萌芽的促动期

4.2. 过高期待的峰值期

4.3. 泡沫破裂的低谷期

4.3.1. 在泡沫破裂的低谷期，企业开始理智退出，资本逐渐趋向冷静，行业竞争的参与者似乎身处低谷，但实际上，这一时段是沉潜蓄势的好时机

4.4. 稳健攀升的光明期、

4.5. 实质生产的高原期

5. 层次

5.1. 底层为基础数据采集层：通过车路协同系统和地图、车载传感器及HMI人机界面，不间断地提供车辆与外部环境交互的通信数据和地理位置等信息

5.2. 数据管道层：所有数据通过受控的数据管道，传输至云端做进一步处理

5.3. 云端模型层：分为通用感知大模型与通用决策大模型两大模块，采集到的基础数据在这一层经过模块内置的AI应用模型—主要是实时蒸馏模型的处理、清洗、转换，由感知大模型与决策大模型将数据转化为任务，交由上一层来完成

5.4. 任务分配层：通用感知大模型将数据提炼为安全关键任务—4D全场景感知，分配给单车智能系统；通用决策大模型将数据过滤为两个AI应用任务—快速评估和强化学习、驾驶行为策略推荐

5.5. 任务执行层：由4D全场景感知和两个AI应用任务导出又一项安全关键任务，即驾驶策略执行

DC娱乐网

读智能涌现： AI时代的思考与探索06自动驾驶(下)

热门分类