自2022年底以来,人工智能(AI)和机器学习(ML)经历了急剧增长,超大规模企业建立了庞大的人工智能基础设施。TikTok和抖音的运营商字节跳动(ByteDance)也在多个用例和应用中采用了人工智能/机器学习。
字节跳动现在正在构建用于训练和推理的通用图形处理单元(GPGPU)集群,训练集群越来越大,并带来了新的网络基础设施挑战。
为什么延迟对AI工作负载性能至关重要?
AI工作负载周期由三个主要的重复步骤构建。在计算阶段,GPU在执行并行计算指令。在通知阶段,计算结果根据集合通信模式发送到其他GPU。最后,在同步阶段,计算会暂停,直到来自所有GPU的数据到达。可以很容易地理解,最慢路径(也称为最坏情况尾部延迟)是对作业完成时间(JCT)影响最大的路径。
关键的人工智能网络基础设施需求
构建在作业完成时间(JCT)方面具有最高性能的大规模GPU集群
这是基于:
- 一种提供高可用性、低延迟、最小抖动和无损环境的网络结构——在执行集合操作时,需要最小化GPU等待网络资源的空闲周期
- 从可能导致轻微延迟增加和作业重启之间差异的故障中无缝恢复
- 在任何规模和不同工作负载下的一致性能结构,包括非阻塞对分带宽、低延迟、数据包丢失等。
创建网络架构的灵活性和开放性,从而实现运营和供应链的灵活性
这是基于:
- 一个开放的生态系统,支持任何GPU和网络接口控制器/卡(NIC),与工作负载无关,并可容纳多种应用程序和配置
- 基于标准的(以太网)技术,与导致供应商锁定的InfiniBand等专有技术相反
- 超可扩展性——在单个AI集群中支持数千个400/800G端口
DDC——一种调度矩阵解决方案
分布式解耦机箱(DDC)是一种满足上述所有要求的预定以太网结构解决方案。
它是一种调度矩阵,具有以下优点:
- 基于信元的矩阵转发使整个集群充当单个以太网节点——支持从任何GPU到任何GPU的单个以太网跳跃,就像连接机箱一样,只是规模比机箱的限制要大得多
- Clos物理架构——其中 top-of-rack(ToR)交换机是网络云数据包转发器(NCP)白盒,而矩阵交换机是网络云和结构(NCF)白盒
- 信元分割机制——从入口NCP运行到所有NCF,再回到出口NCP,从而确保完全平等的负载平衡,没有拥塞,也没有长流

- 无数据包丢失——入向NCP对每个出向NCP都有虚拟输出队列(VOQ)和基于授权的流控制
- 每个集群支持32K GPU(800Gbps)
- 无损、可预测的连接、低延迟和几乎零抖动
- 纳秒级故障切换,无作业重置
- 无供应商锁定——与供应商无关的GPU、DPU/NIC、ASIC、工作负载
- 多样化的人工智能应用支持——即使网络需求发生变化,也能提供高性能
- 基于以太网——确保互操作性,并利用众所周知的协议(以太网)简化构建和操作
- 经过测试和现场验证的解决方案——DriveNets Network Cloud已经为世界上最大的网络提供支持
字节跳动(ByteDance)之旅
ByteDance与DriveNets和Broadcom合作,在过去几个月里测试了DDC调度矩阵,并取得了积极成果。这促使ByteDance于2024年7月部署了世界上第一个由DDC调度矩阵驱动的1K GPGPU生产集群。
配置和规模
计算集群由1280个xPU和640个端点组成,速度为400GE。它采用两层DDC构建,为整个集群形成了一个非阻塞域。
Leaf层由20个紧凑的2RU NCP白盒组成,每个白盒由2个Broadcom Jericho2C+ASIC赋能,提供32个400GE到xPU的端口和40个400G到Spine的端口。Spine层包括20个具有相同2RU外形的NCF白盒,每个盒使用两个Broadcom Ramon ASIC,每个系统总共提供48个400G端口。
NCP Leaf节点提供预留过载配置功能。每个Leaf与20个Spine NCF相连,允许大约25%的冗余。即使在多达三个NCF故障的情况下,该结构也可以保持近100%的产量。根据ByteDance的鉴定结果,进一步的故障会线性地影响性能。
分布式或集中式管理
调度矩阵可以集中管理,也可以以分布式方式管理。对于集中管理,控制器(两个,1主控制器+1辅助控制器)协调NCP和NCF,在专用服务器上运行协议。ByteDance选择了一种基于开创性的DriveNets网络操作系统(DNOS)的分布式方法,类似于管理每个节点独立运行协议的非调度矩阵,操作变化最小。这种方法与ByteDance现有的编排系统无缝集成。
功率效率
NCP和NCF白盒具有很高的能效。在28.8T和19.2T交换容量下,不含光模块的典型功耗分别为667W和377W。这允许灵活的物理放置。根据数据中心的功率和热容量,NCP可以与xPU服务器放置在同一机架中,也可以与NCF放置在网络机架中。这种功率和热性能的灵活性使ByteDance能够在数据中心内以最佳配置放置NCP和NCF。
经验证的解决方案
在本文发布时,该集群已在线两个月,处理来自各种应用程序的推理和训练流量。ByteDance现有的操作工具包,专为非调度矩阵设计,很容易移植到这个集群。正如预期的那样,集群展示了出色的性能,并提供了流畅的用户体验。
而这仅仅是个开始……