DC娱乐网

大白话读懂什么是“超节点?

最近这段时间,AI圈最火的词非“超节点”莫属了。华为、阿里等科技巨头纷纷推出了自己的超节点产品。此外,字节、腾讯、浪潮信

最近这段时间,AI圈最火的词非“超节点”莫属了。

华为、阿里等科技巨头纷纷推出了自己的超节点产品。此外,字节、腾讯、浪潮信息等也纷纷入局,推出了各自的超节点方案。

那么,到底什么是超节点呢?我们为什么会需要超节点呢?

今天我们就好好聊聊。

▌什么是超节点?

超节点,英文名叫SuperPod,是英伟达最先提出的概念。

百度百科解释是:超节点是一 种用于构建大规模算力集群的技术架构,通过高速互联技术整合多块算力芯片(如GPU或NPU)形成的规模化计算单元,核心目的是解决AI大模型训练中的算力协同与效率问题。

是不是有点晦涩难懂?

其实,简单来说,超节点就是一种将大量GPU集成在一起,形成一个超级计算节点的技术架构。就好比把一群小马驹绑在一起,变成一匹超级大马,从而拥有更强的力量。

那么为什么会出现超节点呢?

我们都知道,GPU是AI大模型训练和推理的重要硬件支持,但是随着大模型参数规模的不断增长,对GPU集群的规模需求就回不断增加。

我们都知道,构建大规模集群的方式主要有两种方式:Scale Up(向上扩展)和Scale Out(向外扩展)。

那么超节点是Scale Up还是Scale Out呢?

其实,超节点的扩展方式既包含了Scale Up的元素,也包含了Scale Out的元素。咱们来好好聊聊这个。

首先,得搞清楚Scale Up和Scale Out到底是个啥?

Scale Up(向上扩展):就好比你有一台电脑,觉得它的性能不够用了,于是你往里面加更多的硬件,比如多塞几块GPU、加更多的内存。这样,单台电脑的性能就提升了。简单来说,就是让一台电脑变得更强大。

Scale Out(向外扩展):这就像是你有好几台电脑,觉得单独一台的性能不够,就把这些电脑连起来,一起工作。这样,整体的性能就提升了。简单来说,就是让多台电脑协同工作。

超节点是怎么做的呢?其实,超节点是把这两种方式结合起来的。

Scale Up 的部分:超节点会在单个机柜或者单台服务器里塞进很多个GPU。比如,NVIDIA的GB200 NVL72超节点,就在一个机柜里塞了72个GPU。这就像是在一台电脑里加了很多硬件,让单台设备的性能大幅提升,这是Scale Up的典型做法。

Scale Out 的部分:超节点不仅仅局限于单台设备。通过高速互联技术(比如NVIDIA的NVLink),这些GPU可以跨多个机柜或者服务器进行通信和协同工作。例如华为的Cloud Matrix 384超节点采用了多机柜的Scale Out架构,通过总线技术和UB Switch网络拓扑实现384个NPU之间的大带宽低时延互连。

为啥要把Scale Up和Scale Out结合起来,主要是为了应对AI模型训练和推理中的两大挑战:

单个模型的计算需求:像GPT-4这种超大模型,参数量能达到万亿级别。单靠一台电脑或者少量GPU根本搞不定。通过Scale Up,把很多GPU集成在一个机柜里,就能提供足够的算力来处理这些超大模型。

多模型的并行处理:除了训练一个超大模型,很多时候我们还需要同时处理多个模型。这就需要多台设备协同工作。通过Scale Out,让多个机柜或者服务器里的GPU一起工作,就能同时处理多个模型,提高整体效率。

所以,超节点既不是纯粹的Scale Up,也不是纯粹的Scale Out,而是两者的结合。它既利用了Scale Up的优势,通过在单个设备里集成大量GPU来提升单点性能;又利用了Scale Out的优势,通过高速互联技术让多个设备协同工作,提升整体性能。

这种结合方式,让超节点在处理超大模型和多模型并行任务时,都能表现出色。

▌超节点发展历史

超级点的火爆,跟近年AI大模型爆火有很大关系。

尤其是DeePSeek爆火后,AI大模型迅速受到越来越多的关注。大模型的大模型的参数规模不断膨胀,从亿级到万亿级,甚至未来可能更大。

这使得传统的单机和集群架构在面对大规模AI训练和推理任务时,逐渐暴露出诸多问题,如服务器间带宽不足、高时延等,导致算力效率低下。

为了满足AI大模型对海量算力的需求,超节点应运而生。

超节点的站大概可以分为三个阶段:

早期探索阶段(2014年以前):

在AI智算时代到来之前,大概十多年前,游戏发烧友口中的“四路Titan”,即在一个机箱中放4块GPU,就是一个小型超节点。

不过,这种早期的超节点主要是基于游戏需求,规模较小,技术也相对简单。

技术突破阶段(2014年-2022年):

2014年,英伟达推出了NVLINK总线协议,让GPU之间能够以点对点的方式高速通信,为超节点的发展奠定了基础。

此后,NVLINK不断迭代升级,逐渐提高了GPU之间的通信速度和效率。

2022年,英伟达将NVSwitch芯片独立出来,变成了NVLink交换机,使得节点不再仅限于一台服务器,而是可以由多台服务器和网络设备共同组成,形成了超带宽域(HBD),超节点的概念正式形成。

快速发展阶段(2022年以后):

2024年3月,英伟达发布了NVL72,可以将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,实现总计720 PFLOPs的AI训练性能,或1440 PFLOPs的推理性能。

2025年,华为、阿里等科技巨头纷纷推出了自己的超节点产品,如华为的CloudMatrix 384超节点、阿里的磐久128超节点AI服务器等,超节点技术得到了快速的发展和应用。

▌超节点有哪些好处?

可能有人会问,为什么一定要搞超节点呢?

答案很简单,就是超节点能真真正正的解决好AI大模型在训练和推理过程中的挑战,能给我们带来各种有事。

(一)高互联带宽

超节点的核心优势之一就是高互联带宽。传统的服务器架构中,GPU之间的通信主要依赖于PCIe总线,其带宽有限,时延较高。例如,PCIe 4.0的单通道带宽仅为16 GT/s,对于大规模GPU集群来说,这种带宽远远无法满足需求。

而超节点通过采用NVIDIA的NVLink等高速互联技术,可以实现GPU之间的点对点高速通信。以NVIDIA的H100 GPU为例,其NVLink带宽可以达到900 GB/s,这意味着GPU之间的数据传输速度大幅提升,从而大大提高了AI训练和推理的效率。

(二)高算力密度

超节点通过将多个GPU集成在一个紧凑的空间内,实现了高算力密度。例如,NVIDIA的GB200 NVL72超节点可以在一个液冷机柜中集成72个GPU,每个GPU的算力为10 PFLOPs,整个机柜的算力可以达到720 PFLOPs。这种高算力密度的设计使得超节点在有限的空间内能够提供强大的计算能力,非常适合大规模AI模型的训练和推理任务。

(三)高能效比

超节点在提供高算力的同时,还具有较高的能效比。通过优化硬件设计和冷却技术,超节点可以在保持高性能的同时,降低能耗。

(四)灵活的扩展性

超节点的设计允许灵活的扩展。通过增加GPU的数量或优化互联架构,超节点可以根据不同的应用场景和需求进行调整。

(五)低延迟

在AI训练和推理过程中,低延迟是提高效率的关键因素之一。超节点通过优化GPU之间的通信路径和减少通信时延,实现了低延迟的数据传输。

▌目前主流的超节点

(一)NVIDIA的GB200 NVL72超节点

NVIDIA的GB200 NVL72超节点是目前最先进的超节点之一。它将72个GPU通过18个专用交换机连接,实现全互联,每个GPU间的通信带宽高达1800 GB/s。这种设计让单机柜的算力密度较前代提升数倍,完美适配大模型训练中频繁的数据交互需求。此外,NVIDIA的超节点还具有高性能、低成本、高能效等优势,使其在AI算力市场中占据了重要地位。

(二)华为的CloudMatrix 384超节点

华为的CloudMatrix 384超节点是华为推出的面向政企客户的超节点产品。它通过将384个GPU集成在一个机柜中,实现了极高的算力密度。华为的超节点采用了先进的液冷技术和优化的互联架构,确保了高性能和高能效。此外,华为的超节点还支持多种AI框架和应用,具有良好的兼容性和扩展性。

(三)阿里的磐久128超节点AI服务器

阿里的磐久128超节点AI服务器是阿里云在2025云栖大会上发布的最新产品。它通过将128个GPU集成在一个机柜中,实现了强大的算力。阿里的超节点采用了先进的冷却技术和优化的互联架构,确保了高性能和高能效。此外,阿里的超节点还支持多种AI框架和应用,具有良好的兼容性和扩展性。

(四)字节的超节点

字节跳动也推出了自己的超节点产品,主要面向其内部的AI应用和大规模数据处理需求。字节的超节点采用了先进的硬件设计和优化的互联架构,确保了高性能和高能效。此外,字节的超节点还支持多种AI框架和应用,具有良好的兼容性和扩展性。

除了上述几家厂商,像浪潮,新华三,中兴通讯其实也都推出了自己的超节点方案,只不过具体实现的方案略有不同,但整体解决方案都差不太多。

▌总结

超节点作为AI时代的算力新宠,凭借其高互联带宽、高算力密度、高能效比、灵活的扩展性和低延迟等优势,正在成为各大厂商竞相押注的焦点。从NVIDIA的GB200 NVL72超节点到华为的CloudMatrix 384超节点,再到阿里的磐久128超节点AI服务器,主流的超节点产品都在不断推动AI技术的发展。

随着技术的不断进步和应用场景的不断拓展,超节点必将在未来的AI时代发挥更加重要的作用,为人类的科技进步和社会发展做出更大的贡献。