看了个理想谢炎的采访,理想打造了一套专属的车端计算架构,并已完成流片,用实际数据验证了技术路线的可行性。
1.架构设计:聚焦NPU,以“同构并行+独创总线”突破效率瓶颈 理想汽车的车端计算架构分为SOC与NPU两部分,核心创新集中在NPU: -
SOC部分:主要承担前处理、后处理任务,由CPU集群、IO接口及内存访存控制器组成,功能以“辅助支持”为主。
- NPU部分:采用同构综合架构,所有计算单元(Class)均为同构设计,确保并行效率最大化;同时配备CCB(Central Control Computing Block),专门处理不适合张量计算的前/后处理任务。
- 总线设计:独创“Mesh Bus+Ring Bus”双总线结构——Mesh Bus实现计算单元间的高效互联,Ring Bus则负责广播功能,解决了传统架构中数据传输的瓶颈问题,且因无CM memory设计,架构具备“无限扩展”潜力。
谢炎指出,这套架构是国内首创的车端AI推理架构,而架构落地的最大挑战在于编译器——硬件结构简化后,需要编译器高效调度,才能让所有应用充分发挥硬件性能,这背后涉及大量编程模型与编译架构的设计优化。
2.实践成果:同等成本下,关键算子性能数倍提升 与当前行业最好的车端推理芯片相比,理想汽车的架构展现出显著的性能优势:
- 整体性能:在IP4与IP8精度下,整体性能达到行业顶尖芯片的1.83倍; - 视觉类算子(CN):在同等晶体管消耗下,性能飙升至行业水平的4.4倍; - Transformer类算子:不同场景下性能提升幅度在4-6倍之间; - 大模型适配(Llama2-7B):在70亿参数的Llama 2模型上,性能达到行业顶尖芯片的2-3倍。 这些数据表明,基于数据流架构的车端推理系统,能够在控制成本的同时,有效应对算力指数级增长的需求。