华为盘古ProMoE核心技术梳理:1.创新架构提出分组混合专家模型(MoGE

春蕴评趣事 2025-05-29 10:26:18

华为盘古Pro MoE核心技术梳理:

1. 创新架构

提出分组混合专家模型(MoGE),通过专家分组机制解决传统MoE负载不均衡问题。将64专家分为8组,每组独立路由,确保跨设备计算负载均衡。

2.性能突破

72B总参数/16B激活参数,在昇腾硬件实现高效训练:

• 昇腾300I Duo:321 tokens/s

• 昇腾800I A2:1528 tokens/s

SuperCLUE榜单千亿内模型并列国内第一(59分)。

3.技术亮点

• 分组均衡路由:强制每组激活相同数量专家

• 均衡辅助损失函数:优化批次级负载分布

• 架构仿真优化:分层调优匹配昇腾硬件特性

4.行业价值

突破参数规模限制,实现:

• 云端推理成本降低

• 高并发实时响应

• 昇腾芯片高效适配

5.应用前景

为AI产业提供高效普惠的智能底座,推动大模型从参数竞赛转向实效应用。

0 阅读:30
春蕴评趣事

春蕴评趣事

感谢大家的关注