这两天刷到腾讯一位架构师的观点，挺扎心的，从2016年到2024年，AI算力涨了

这两天刷到腾讯一位架构师的观点，挺扎心的，从2016年到2024年，AI算力涨了1000倍，网络带宽只涨了4倍。算力像火箭蹿升，网络像老牛拉车。这差距，搞过集群的都懂。

以前总觉得，GPU到位了算力就到位了。现在发现天真了，卡堆得再多，网跟不上，全是摆设。业内有个数据：ChatGPT训练时，丢包率只要到0.1%，GPU有效利用率就能掉13%以上。真跑到万卡规模，稍微有点拥塞，算力就白烧了。

所以问题来了，到底该怎么办？过去国内主流是RoCE，说白了就是在以太网的基础上改出一条RDMA的路。千卡规模还行，工程师熬夜调参、盯着水线、配ECN，勉强能跑。但一到万卡，流量模型一复杂，PFC风暴说来就来，训练动不动崩掉。

但反观InfiniBand，从设计之初就是为高性能计算生的，基于信用的流控、硬件级的重传、集中式的路由管理，无损是刻在基因里的。你不需要天天盯着参数调，上电即用，稳得一塌糊涂。

但问题也在这儿，在这之前你想用IB，全程得看别人脸色。尤其在当下，供应链这事儿，谁都不敢打包票。所以最近业内传得有鼻子有眼的消息，挺让人期待的，说是有国产厂商已经把原生IB方案做出来了，全栈自研。别说，我也刷到了相关消息，而且外媒也都在说这事儿。

那这样一来，这就等于把高铁轨道修到了自己家门口。以后万卡集群这趟车，终于不用再挤别人的路，也不用再忍受模拟无损的颠簸了，真正的原生IB，才是万卡时代的正解啊。

原生IB

DC娱乐网

这两天刷到腾讯一位架构师的观点，挺扎心的，从2016年到2024年，AI算力涨了

热门分类