让我们深入了解DriveNets Network Cloud AI(DriveNets网络云人工智能)……在为人工智能(AI)训练目的构建大型GPU集群时,后端网络结构应该是高性能、无损和可预测的。
DriveNets Network Cloud AI是一个分布式网络操作系统(NOS)。该解决方案管理一个来自任何GPU供应商的预定结构,并支持大规模最高性能AI网络,每个集群最多有32K GPU(每个GPU高达800 Gbps),具有任何以太网网卡。
此预定结构AI基架支持无拥塞操作,在任何规模上充当单个以太网个体(从集群中的任何GPU到任何其他GPU的单个以太网跳跃)。 它提供了可预测的无损连接,具有超快速(微秒级)的大规模故障恢复功能。因此,对于大规模GPU 集群 上的AI工作负载,它可以在作业完成时间(JCT)方面提供>10 %的改进。
本文介绍了DriveNets Network Cloud AI的功能,并提出了一个8,000 GPU集群的高级参考设计(每个GPU配备400Gbps以太网连接)。该设计探索了网络分段、高性能结构和可扩展拓扑,所有这些都针对大规模人工智能部署的独特需求进行了优化。
集群网络架构
这款高性能GPU集群采用了两层Spine和Leaf网络拓扑结构,旨在为AI应用程序提供最佳性能和可扩展性,并充分利用了DriveNets network Cloud-AI的功能。
Leaf层由博通(Broadcom)Jericho3 AI处理器驱动的DriveNets NCP5-AI Leaf交换机组成,而Spine层由双博通Ramon3处理器驱动的DriveNets NCF2-AI Spine交换机组成。NCP5-AI Leaf交换机可确保服务器机架内GPU之间的高效通信,而NCF2-AI Spine交换机及其高性能Broadcom Ramon3处理器可促进整个集群的讯务路由选定。

Leaf层:每个NCP5-AI交换机直接连接到多个GPU服务器。这些交换机的容量为30.4Tbps。每个交换机配备18个端口,可以配置为800Gbps或36个400Gbps速度的端口,根据特定的GPU连接需求提供灵活性。NCP5-AI利用20x800G蜂窝交换端口实现到Spine层的高带宽上行链路连接。值得注意的是,这些800G端口可以分成40个400G接口。
Spine层:这些NCF2-AI交换机使用信元交换技术处理Leaf交换机之间的讯务路由选定,以实现高效的负载平衡。NCF2-AI提供102.4Tbps的巨大容量和128x800G的信元交换端口。与Leaf层类似,这些端口可以分解为400G接口。此突围功能增加了Spine基数,最多可连接256个Leaf节点。在充分利用800G的情况下,该设计支持集群内多达32K的GPU连接。
使用DriveNets Network Cloud-AI构建8192 GPU集群
得益于DriveNets network Cloud AI NOS以及NCP5-AI和NCF2-AI交换机的突围能力,这种参考设计允许高度可扩展的网络。该网络在基本配置中最多可支持4608个GPU连接,带宽为800Gbps。然而,通过利用Leaf交换机上的400G突围,可以连接多达9216个GPU。(通常,由于36个Leaf端口中只有32个[=8×4]被使用,因此只连接了8192个GPU。)此外,多层Spine使网络具有高达32K的潜在800G GPU连接。
本节详细介绍了如何利用DriveNets Network Cloud-AI NOS的可扩展性和NCP5-AI Leaf交换机的突破能力,构建支持8,192个GPU的高性能GPU集群,每个GPU都配备400Gbps连接。
网络配置
- Leaf交换机该设计利用256个DriveNets NCP5-AI Leaf交换机,每个交换机的容量为30.4Tbps,专门为AI工作负载设计。
- Leaf交换机配置:
- GPU连接:每个NCP5-AI交换机直接连接到多个GPU。为了最大化GPU连接,我们在每个Leaf交换机上利用可用的18个端口中的16个端口,速度为800Gbps。这些端口使用DriveNets的突围功能拆分为32x400G端口。此配置使每个Leaf交换机能够支持32个具有专用400Gbps连接的GPU。
- 矩阵连接:虽然每个Leaf交换机32个上行链路端口足以满足GPU信息流量,但我们利用36个可用的矩阵端口进行冗余(N+1),并容纳博通内部信元控制数据包的额外信息流量。这意味着32个端口专用于GPU流量,另外4个端口用于冗余和单元开销。
- Spine交换机:所需Spine交换机的数量由Leaf交换机的上行链路总容量决定。
Spine交换机计算
- 上行链路总容量:我们通过将Leaf交换机的数量(256)乘以每个Leaf交换机的矩阵端口数量(36)来计算总上行链路容量:256个Leaf * 36个端口 = 9216个上行链路端口(400Gbps)。
- Spine数量:为了处理该上行链路流量,我们需要36个Spine交换机。该计算是通过将总上行链路端口(9216)除以单个Spine可从单个Leaf支持的连接数量(每个Spine256 x 400Gbps分支端口)得出的。
机架立面和数据中心布局
虽然GPU集群的数据中心部署在设计上可能有所不同,但功耗和机架尺寸等关键因素起着至关重要的作用。该参考设计采用保守的方法,假设每个机架的最大功率消耗为25kW,并采用标准的48单元机架尺寸。此配置与高性能GPU主机(如NVIDIA HGX H100)的常见做法一致。
网络组件
该解决方案包括四个关键组件:
- 计算机架:这些机架容纳了计算主力——GPU节点和Leaf交换机。在这个参考设计中,我们考虑了每个机架有2个GPU节点的配置,每个节点支持16个以太网GPU(每个节点8个GPU)。这个假设与典型的数据中心实践相一致,其中像NVIDIA HGX H100这样的高性能主机可能需要大约11kW的功率。考虑到网络和管理交换机,整个机架的功耗将在22kW到25kW之间。由于每个Leaf将支持32x400G GPU,每两个计算机架将连接到单个DriveNets NCP5-AI Leaf交换机。
- Spine机架:这些机架装有Spine交换机。每个Spine机架可以包含6个DriveNets NCF2-AI Spine交换机。这些机架通常位于数据中心的中心位置,因为所有容纳GPU节点和Leaf交换机的计算机架都需要连接到网络中的每个节点。
- 主机网卡到Leaf的连接:机架内和机架之间的GPU与Leaf交换机的连接可以利用经济高效的直接连接铜(DAC)电缆而不是光纤,从而节省电力和成本。在本设计中,单个NCP5-AI Leaf将具有16x400G机架内连接和16x400G到相邻机架的连接
- Leaf与Spine的连接:每个配备Leaf交换机的机架将有36个400G链路专用于连接到Spine交换机。这些Spine交换机位于单独的Spine机架中,通常设计为容纳48个机架单元(RU)。每个Spine机架可以舒适地容纳6个DriveNets NCF2-AI Spine交换机。这种设计确保每个Leaf交换机使用单个400Gbps链路连接到每个Spine交换机,从而使每个Leaf交换机到每个Spine机架的连接总数达到6x400G。
为8192 GPU集群创建高度可扩展的网络基础
此参考设计利用DriveNets Network Cloud AI和NCP5-AI Leaf交换机的突围功能,为8192 GPU集群创建高度可扩展的网络基础每个GPU都受益于专用的400Gbps连接,以实现高效通信。256个Leaf交换机连接到36个Spine交换机,确保整个集群的冗余和高效流量路由。
这种架构可以提供多种方法来实现低总体拥有成本(TCO).一种方法是在叶子交换机和GPU服务器之间使用铜而不是光学器件。第二种也是更重要的方法是大幅缩短端到端作业完成时间。这是首先使用DriveNets Network Cloud-AI解决方案的部分原因,但这是另一篇博客文章的内容。