RoCE党、IB党都别吵了!国产方案出来,直接通杀
业内有个经久不衰话题经常有人争论:RoCE和IB到底谁才是未来?互联网大厂推RoCE,因为它便宜、开放;搞超算的偏爱IB,因为稳定、无损。
但说实话,以前咱们吵归吵,终究是“螺蛳壳里做道场”,因为你没得选,高端IB就那么一家,RoCE虽然折腾但至少能摸得着。但现在,曙光的scaleFabric高速网络出来之后,这个争论该画上句号了。因为这次发布的,是国内首款全栈自主研发的400G原生RDMA高速网络系统,性能对标国际主流,且经规模化实践验证,打破了国外技术垄断,补齐了国产高速网络的短板。
曙光高速网络互联总工在发布会上算了一笔账,传统的IB受限于协议空间,最大组网撑死了不到5万卡。但现在大模型都冲着10万卡、20万卡去了,规模上不去,性能必然被卡。而scaleFabric直接把单子网规模干到了11.4万卡,是原来的2.33倍,组网成本直接下降30%。
这才是降维打击。你还在纠结水线怎么调、PFC风暴怎么防,人家直接从物理层面把问题解决了。基于信用的流控机制,让拥塞控制变成了伪命题。在工业仿真里,延迟每增加10微秒,效能都可能掉20%。scaleFabric能守住260纳秒的交换延时,这就是给科研、给大模型训练留出了宝贵的性能余量。
发布会上科大讯飞的架构师鲍中帅说得挺实在,他们从2019年开始坚定走国产化,吃过很多苦,也积累了很多经验。但看到曙光的ScaleX超节点,单机柜集成640张卡,单机柜功率500多千瓦,他用了四个字:非常震撼。
这种震撼,不是单纯因为参数高,而是因为咱们终于有了从底层到顶层贯通的能力。这不是某个单点的突破,是整个体系的成人礼。
科大讯飞 如何破解AI算力焦虑 中科曙光
