DC娱乐网

万卡集群99.99%可用性是真的香,什么时候另一家也能给这个承诺? 老机房运维,

万卡集群99.99%可用性是真的香,什么时候另一家也能给这个承诺?
老机房运维,说句话可能要扎心了,参数再漂亮不如少出几次故障实在。跑大规模集群时节点越多故障概率越大,运维团队天天熬夜处理各种宕机、网络拥塞、散热异常。
基于公开数据,拉了下热门产品对比。
华为昇腾384单柜32卡。万卡规模需要26组、超过300个计算柜外加总线柜,总计超400个机柜。故障点数量直接线性增长,每个机柜、每根线缆都可能挂。此外整集群功耗约13MW,冷板式液冷设计对水位、流量、温度的实时监控有挑战。
曙光这边16个机柜搞定万卡,故障点少了整整一个数量级。液冷系统设计了完备的冗余和在线维护能力,搭配智能化运维和数字孪生系统,系统可用性直接拉到99.99%。6万卡集群已完成70余项万卡规模测试,稳定运行时间远超常规标准。
参数可以包装,但连续跑几个月不崩这种事,怕是掺不了假。
 
#万卡集群# #中科曙光# #液冷# #算力可靠性# #华为#