DC娱乐网

当《报告》遇上全民养虾:智算集群“超”在哪

一边是两会将“超大规模智算集群”写入政府工作报告,一边是全民“养虾”热。这两个看似不相关的话题,其实指向同一方向——AI

一边是两会将“超大规模智算集群”写入政府工作报告,一边是全民“养虾”热。这两个看似不相关的话题,其实指向同一方向——AI正在从“研发”走向“应用”,而支撑这场应用的底座,正在被重新定义。

今年两会《报告》,有个说法让人挺兴奋的:“算力国产化”被摆到了新基建的核心位置,明确提出要搞“超大规模智算集群”。

这是给国产算力发了一张“入场券”。

以前我们聊信创,聊的是办公电脑换国产、服务器换国产,属于“替代”;现在战场直接换到了AI算力中心,大模型一火,算力就是硬通货,这是“新建”。对国产产业链来说,确实是第二增长曲线打开了。

但兴奋归兴奋,真正的硬仗可能才刚开始。最近外网突然炸了,几家科技媒体连着爆料:中国一家头部算力厂商在原生RDMA上搞出全栈自研突破,性能将与NVIDIA相匹敌。

为什么一条网络相关的消息能炸圈?因为“超大规模智算集群”这几个字,落到技术上,要求的可不只是把显卡换成国产的那么简单。当集群从几千卡往万卡、十万卡走的时候,有一个环节会被成倍放大,那就是网络。

大模型训练的通信模式,有点像几千个人同时协作一个项目,必须在极短的时间内同步信息。只要中间有一个人传话慢了,整个进度就得等。网络延迟、丢包、抖动,都会被成倍放大。

我们来看目前的两条主线:

RoCE 的思路挺聪明,想在普及率最高的以太网上跑 RDMA,实现低成本的高性能传输。这好比给普通轿车换上高性能轮胎,日常开确实比别的车快。但问题在于,一旦上了赛道、跑到极限速度,底盘和悬挂的先天差异就暴露出来了。

IB 网络为极限场景设计。它有一个很特别的设计:传输数据之前,先确认接收端有足够的资源。这种基于信用的流控机制,让它的交换延迟可以低到 100 纳秒级别,而且几乎不会丢包。

当然,RoCE 也有自己的生态位。它在中小规模集群里确实够用,成本也更友好。但现在的问题是,高端市场的节奏已经走到 400G 互联,而在 200G 以上的高速领域,RoCE 的核心交换芯片和网卡芯片,依然高度依赖海外厂商。换句话说,RoCE 的上限,现阶段不完全由我们自己决定。

这给国产智算基建出了一道难题:我们是要在通用架构上继续修修补补,还是集中资源去攻克高性能网络这座山头?叠加两会提出要建超大规模集群,相信趋势已经很明显了。

在 AI 时代,我们是否有底气打造真正属于自己的算力底座?这场连接之战,可能比芯片之战更隐蔽,但也同样关键。

END