这两天刷到腾讯一位架构师的观点,挺扎心的,从2016年到2024年,AI算力涨了1000倍,网络带宽只涨了4倍。算力像火箭蹿升,网络像老牛拉车。这差距,搞过集群的都懂。
以前总觉得,GPU到位了算力就到位了。现在发现天真了,卡堆得再多,网跟不上,全是摆设。业内有个数据:ChatGPT训练时,丢包率只要到0.1%,GPU有效利用率就能掉13%以上。真跑到万卡规模,稍微有点拥塞,算力就白烧了。
所以问题来了,到底该怎么办?过去国内主流是RoCE,说白了就是在以太网的基础上改出一条RDMA的路。千卡规模还行,工程师熬夜调参、盯着水线、配ECN,勉强能跑。但一到万卡,流量模型一复杂,PFC风暴说来就来,训练动不动崩掉。
但反观InfiniBand,从设计之初就是为高性能计算生的,基于信用的流控、硬件级的重传、集中式的路由管理,无损是刻在基因里的。你不需要天天盯着参数调,上电即用,稳得一塌糊涂。
但问题也在这儿,在这之前你想用IB,全程得看别人脸色。尤其在当下,供应链这事儿,谁都不敢打包票。所以最近业内传得有鼻子有眼的消息,挺让人期待的,说是有国产厂商已经把原生IB方案做出来了,全栈自研。别说,我也刷到了相关消息,而且外媒也都在说这事儿。
那这样一来,这就等于把高铁轨道修到了自己家门口。以后万卡集群这趟车,终于不用再挤别人的路,也不用再忍受模拟无损的颠簸了,真正的原生IB,才是万卡时代的正解啊。
原生IB
