通过无损连接在多个站点上扩展AI工作负载

如果让我的双胞胎孩子做主,他们会把所有醒着的时间都花在智能手机上。这就是为什么父母要设置时间限制。我的双胞胎孩子都知道,在上学的日子里,他们每天有1.5小时的时间,周末有2小时的时间。通常的情况是,在他们每天的时间结束后,他们打电话给我,乞求额外的时间。大多数时候,我会让步,再增加30分钟。     

然后,事情发生了变化。我已经习惯了他们每天的电话,但他们突然停止了。起初,我很自豪——也许我的孩子们终于学会了平衡他们的屏幕时间。但我也注意到,他们更频繁地去看望住在附近的祖父。经过一番调查,我意识到他们发现了一个漏洞:一旦他们在家的时间到了,他们就可以简单地去祖父家,不受任何限制地使用他的手机——而且,他们在这个过程中还得到了糖果!我的孩子们,就像一个名为NeoClouds的新的、不断增长的细分市场一样,明白一个地方的资源短缺可以通过利用另一个地区的资源来克服。

NeoClouds及其挑战

NeoClouds,或GPU作为服务的云提供商,在过去两年中有了显著增长,建造了拥有数千个GPU的大型数据中心。然而,他们的快速扩张也突显了所有NeoCloud提供商必须解决的两个关键挑战:

  • 有限的电力资源:大型数据中心消耗大量的电力和空间,尤其是那些挤满GPU的数据中心。随着对计算能力的需求不断上升,电力和空间限制正成为关键挑战。
  • 具有AI级性能的全球影响力:云提供商本质上服务于大规模地区,客户往往不知道其资源的具体位置。单个服务可能会使用来自两个不同站点的资源,这意味着从网络的角度来看,这两个位置的GPU必须作为单个工作负载运行。

对于NeoCloud的人工智能驱动应用程序来说,关键的挑战不仅仅是跨分布式数据中心互连工作负载,还要保持无损连接。人工智能工作负载需要高性能的网络,GPU之间需要无损、可预测的连接。虽然当GPU位于同一数据中心时,这相对简单,但当数据中心相距例如80公里时,情况会变得更加复杂。

跨多个位置无缝共享和优化电力资源的能力——在不牺牲性能的情况下——对NeoClouds应对这些挑战至关重要。正确的网络和基础设施解决方案将决定它们是否能够继续有效扩展,同时保持人工智能工作负载所需的高性能标准。

为什么深度缓冲对无损DCI至关重要

互连数据中心并不是什么新鲜事——DCI(数据中心互连)长期以来一直是云环境中的标准解决方案。然而,新的是提供AI级性能的挑战。这意味着不仅要确保带宽,还要确保可预测的低延迟、最小抖动,以及最关键的无损数据包传输。即使是轻微的数据包丢失也会显著影响AI训练和推理的准确性。

这就是ECN(显式拥塞通知)和PFC(基于优先级的流控制)的结合变得至关重要的地方。

  • PFC:作为最后的手段,是在拥塞已经发生时进行流量控制的一种直接形式。它通过向发送方发送一个暂停帧,指示它暂时停止传输来防止进一步的降级。
  • ECN:提供拥塞的早期预警,通过在数据包丢失发生之前向发送主机发送信号以降低其传输速率。

为了使ECN最佳运行,它必须与硬件深度缓冲配对。如果没有足够的缓冲容量,ECN传播时间不足,导致数据包丢失和性能下降。深度缓冲区为ECN提供了有效管理拥塞所需的时间,确保了所需的无损连接。

Deep-buffer-whiteboxes-vs

Deep buffer whiteboxes vs. shallow buffer whiteboxes  深缓冲白盒与浅缓冲白盒对比

基于DriveNet的分布式AI工作负载性能

在此基础上,希望在多个远程数据中心分发人工智能工作负载的NeoCloud提供商必须建立一个包含深度缓冲的网络基础设施。这确保了无损连接和可预测的性能,即使GPU集群分布在很远的距离上。

DriveNets Network Cloud-AI提供了一种调度矩阵以太网解决方案,可提供最快的作业完成时间(JCT)性能,甚至优于英伟达的已知解决方案。在其集群网络中,它支持浅缓冲和深缓冲Jericho3-AI。这允许AI工作负载构建者利用浅缓冲白盒进行数据中心内部GPU互连,同时利用深缓冲白盒跨分布式数据中心连接AI集群。这确保了大规模人工智能工作负载的无缝、无损连接,即使距离为10公里、50公里或80公里。

Interconnecting-AI-workloads-with-DriveNets-Network-Cloud-AI-1024x604

Interconnecting AI workloads with DriveNets Network Cloud-AI

在不影响性能的情况下分配大规模AI工作负载

NeoClouds甚至企业都在追求跨多个站点的AI集群互联。这一战略举措直接解决了困扰特定地点的电力和空间限制问题。通过分配大规模的人工智能工作负载,他们可以充分挖掘可用电力和空间资源的潜力。

然而,在不损害性能的情况下实现这一目标并非易事。DriveNets Network Cloud AI能够应对这一挑战,提供具有深度缓冲功能的结构预定的以太网解决方案。这确保了即使相隔80公里,互连GPU也能保持最高水平的性能。

而且,就像我的双胞胎一样,在这个过程中有一种甜蜜的享受。对我的孩子来说,这是令人无法抗拒的Hershey Kisses;对于NeoClouds来说,它是端到端开放、标准以太网的集成。

+