⚡ 花旗研究快报 🖥️ 英伟达-GPU 与 XPU 之争:人工智能基础设施峰会及超大规模企业主题演讲 📌 花旗观点 💡 近日我们参加了在圣克拉拉举办的人工智能基础设施峰会首日活动,并整理了超大规模企业(Meta、亚马逊、谷歌)主题演讲的核心要点。 🌐 总体而言,尽管所有主要超大规模企业均已大规模部署 GB200/GB30 芯片,但它们同时表示,也在与 AMD 等其他 GPU 制造商合作,并开发内部定制芯片,以支持人工智能工作负载的多样性,最终实现每瓦最低性价比。 🏢 Meta(叶俊松,工程与基础设施基础部门副总裁) 🤖 Meta 面临的人工智能复杂度正不断提升,短视频业务推动了对人工智能排序与推荐功能的需求,进而促使计算集群规模扩张。生成式人工智能模型 Llama 3 使用了 2.4 万台 GPU,Llama 4 使用了约 10 万台 GPU;未来生成式人工智能集群的扩张预计将催生千兆瓦级(GW)数据中心 —— 例如,2026 年将建成的 “普罗米修斯”(Prometheus)1 千兆瓦以上集群,以及未来几年内建成的 “许珀里翁”(Hyperion)5 千兆瓦集群。 💻 运营 GPU 集群与运营 CPU 集群面临截然不同的挑战:GPU 集群是由多台 GPU 组成的超级计算机,需协同完成单个长期运行的任务。 🔧 在人工智能工作负载(如大语言模型(LLM)训练、大语言模型推理预填充、大语言模型推理解码、排序与推荐(R&R)训练、排序与推荐推理)中,不存在 “一刀切” 的计算规格。模型规模正快速演进,基础设施需在规模、计算、内存及网络层面进行优化。 🖥️ Meta 已大规模部署 GB200 与 GB300 芯片,同时也在与 AMD 合作推进 MI300X 芯片;其内部定制 ASIC 芯片 “MTIA 系列加速器”,可聚焦人工智能工作负载多样性,为排序与推荐推理 / 训练、生成式人工智能推理 / 训练的目标提供稳健的技术路线图。 🌍 Meta 支持开源系统,如 Llama、DeepSeek 模型,以及 PyTorch(深度学习框架)、Ultra Ethernet(超以太网)、Ultra Accelerator Link(UAL,超加速器链路)。 ☁️ 亚马逊云服务(AWS,巴里・库克,计算服务部门副总裁) ⚡ 延迟、计算性能与规模弹性是人工智能基础设施最重要的核心要素。 🖥️ 亚马逊云服务在 GPU 运行方面具备优势:亚马逊 EC2 P6-B200 实例适用于中大规模训练与推理任务,而 P6e-GB200 超级服务器是亚马逊云服务推出的性能最强的 GPU 产品。 💡 Trainium 芯片是专为实现高性能与低成本开发的产品,亚马逊 EC2 Trn2 超级服务器为亚马逊云服务上的生成式人工智能提供最佳性价比;亚马逊将使用 EC2 超级集群支持 Anthropic 公司的 “雷尼尔”(Rainier)项目,以提供 520 FP8 百亿亿次(exaflops)计算能力。此外,亚马逊云服务还设计了定制冷板方案,为 Trainium 集群提供支持。 🔍 谷歌(塞巴斯蒂安・穆加赞比,人工智能基础设施部门产品经理) 💰 人工智能计算成本激增是当前面临的关键挑战,已成为整体计算成本的主要组成部分。 💻 定制 ASIC 芯片(或 TPU,张量处理单元)是应对这一挑战的核心解决方案 —— 这类专为特定人工智能任务设计的计算基础设施,可实现高性能、成本 / 功耗效率优化及无缝扩展。 🚀 谷歌今年推出了第七代 Ironwood TPU,单个 Pod(计算单元)包含 9216 颗芯片,高带宽内存(HBM)容量较 2024 年的 Trillium TPU 提升 6 倍。该 TPU 目前已用于谷歌内部工作负载,支持 Gemini、AlphaFold、Imagen、Video、AlphaGo/Zero 及 AlphaChip(芯片设计智能体,可辅助设计未来 TPU 版本),同时也应用于谷歌云平台(GCP)。 🏭 谷歌拥有配备 TPU 的专用数据中心,通过垂直供电提升能效,借助同步高带宽芯片间互连(ICI)提升吞吐量,利用光电路交换(OCS)实现容错与高效调度,并采用液冷技术最大化系统效率。专用 TPU 硬件可实现大规模部署、大容量共享内存、成本与功耗优化、高可靠性及灵活性与韧性。
⚡花旗研究快报 🖥️英伟达-GPU与XPU之争:人工智能基础设施峰会
丹萱谈生活文化
2025-09-16 07:45:56
0
阅读:31