使用正确的集群矩阵优化您的企业

ChatGPT于2022年11月30日推出。从那时起,AI(人工智能)已经成为几乎所有行业中使用最多的时髦术语。每个人似乎都渴望在不同的用例中采用和利用它的潜在好处。因此,许多企业已经开始部署人工智能工作负载,以便为从数据处理到生成式人工智能(GenAI)的各种任务提供解决方案。 

以下是各行业生成式人工智能用例的分布情况

blog-cn-optimizing-Picture1

AI集群的矩阵向以太网转变

用于解决复杂问题的大规模计算集群的根源可以追溯到20世纪中期。然而,在过去十年中,高性能计算(HPC)在类人工智能任务中的应用已经起飞。超大规模运营商和其他HPC集群构建者已经采用了专门的硬件和软件来优化集群,以满足他们的新要求。

英伟达(Nvidia)是人工智能淘金热的主要受益者。大多数企业都熟悉英伟达的解决方案,并使用其基于InfiniBand的GPU和连接解决方案。话虽如此,企业也了解与供应商锁定相关的潜在风险,并倡导更多元化的供应商生态系统。因此,人们越来越喜欢更开放、更完善的连接协议,比如以太网。

虽然预测以太网将取代InfiniBand,但以太网目前的主要缺点与性能有关。为了缩小这种性能差距,可以使用几种以太网“增强功能”,包括:

  • 专有的基于端点的拥塞控制机制
  • 开放的超以太网联盟(UEC),致力于提供基于以太网的、开放的、可互操作的、高性能的全通信堆栈架构,以满足大规模人工智能和高性能计算日益增长的网络需求
  • 调度矩阵选择方案,如分布式解耦机箱(DDC)、思科的解耦预定结构(DSF)和Arista的分布式以太网交换机(DES),它们在训练AI工作负载所需的规模上提供了最高的性能。

InfiniBand与以太网预测

研究公司650 集团预计,基于以太网的解决方案将在AI/ML(机器学习)市场上显著优于InfiniBand。虽然InfiniBand在2024年约占市场价值的三分之二,但预测表明,到2028年,基于以太网的解决方案将占据70%以上的市场。

blog-cn-optimizing-Picture2

企业对网络基础设施的关键要求

最近的人工智能新闻主要集中在超大规模企业(如微软、谷歌、Meta和亚马逊)上,它们构建了具有高达32K GPU的大规模人工智能工作负载集群,以训练GPT、LaMDA和DALL-E等大型模型。这篇博文主要关注企业构建规模较小但数量可观的AI工作负载,范围从1K到8K GPU。即使在这种规模下,管理基础设施在数据处理、计算、算法优化和集群连接方面也呈现出许多复杂性。

本节探讨了构建人工智能工作负载的企业面临的网络挑战和关键要求,以及DriveNets Network Cloud–AI如何满足这些需求。

在人工智能工作负载等大规模环境中提供出色的性能

当涉及到AI工作负载时,最关键的要求是性能。用于训练的AI工作负载需要GPU之间的高性能、无损和可预测的连接,以达到最有效和最佳的作业完成时间(JCT)目标。如上所述,尽管英伟达的InfiniBand解决方案存在固有的困难(配置复杂性、供应商锁定、成本等),但大多数企业都习惯于使用它,因为它可以提供出色的性能。

DriveNets Network Cloud-AI是一种分布式网络操作系统(NOS),采用分布式解耦机箱(DDC)架构。这个预定的结构在整个结构上喷洒信元,以确保完全相等的负载平衡。这与虚拟输出队列(VoQ)机制和基于授权的流量控制相结合,可以实现真正的无损环境,具有无阻塞、无拥塞的结构,就像机箱的基架一样。 此外,基于硬件的链路恢复可确保高性能和可靠性,特别是在人工智能工作负载等要求苛刻的大规模环境中。

DriveNets在包括ByteDance在内的几个知名超大规模网络的生产环境中,与标准以太网相比,JCT提高了30%

最小化AI集群重新配置的需求

具有数千个GPU的大型集群可能很难配置,特别是在追求最佳性能时。与其他基于以太网的解决方案不同,这些解决方案通常需要大量的调优和配置调整(缓冲区大小、PFC、ECN等),DriveNets Network Cloud-AI提供了一个灵活且适应性强的解决方案,最大限度地减少了重新配置的需要。这允许工作负载和GPU/NIC供应商变更之间的无缝转换。一旦连接,DriveNets Network Cloud AI将提供高性能的基于以太网的结构连接,而无需复杂的配置负担。

首次在生产中部署人工智能网络调度矩阵

经过实战验证的人工智能网络解决方案通过在多样化和苛刻的人工智能工作负载环境中持续运行,证明了其可靠性。许多企业倾向于使用默认的基于InfiniBand的解决方案,主要是出于这些考虑。

DriveNets Network Cloud-AI首次在ByteDance上部署DDC AI计划结构,ByteDance是世界上首批大规模基于以太网的AI后端网络部署之一。它在拥有数千个GPU的世界领先的超大规模企业的生产环境中的运行证明了它在真实的超大规模环境中的可靠性和性能。

AI工作负载的全套可观察性选项

具有大量人工智能工作负载的企业需要先进的可观察性和监控能力,以识别和解决性能问题,确保高可用性,并分析人工智能模型行为。这种高级功能应该能够提供广泛的可观察性工具,从CLI和SNMP等低级选项到API等高级功能,以实现无缝集成和自动化。两者都是必要的,因为内部开发的人工智能集群一方面依赖于传统的命令行工具来解决特定的问题;另一方面,有限的人力资源也使得简单性和自动化变得至关重要。

DriveNets Network Cloud-AI提供了一整套可观察性选项。在较低级别,它允许使用单个CLI、gRPC、NETCONF/YANG等将整个集群作为一个网络实体进行操作。在更高级别上,它利用DriveNets Network Orchestrator(DNOR)作为端到端平台,通过API进行网络监控、规划和优化。DNOR与其他管理系统的无缝集成可以充分利用其功能,包括自动化功能,如零接触配置(ZTP)和无缝软件升级。这大大降低了运营成本和工作量。

增强存储网络

存储在AI工作负载中起着至关重要的作用,因为它直接影响性能。在构建集群基础架构时,确保存储网络的完美对齐也很重要。

当使用DriveNets Network Cloud-AI时,集群构建者可以利用DDC的功能来增强存储网络:

  • 沙盒多租户:DriveNets DDC集群固有的沙盒多租户功能可确保存储和计算流量可以在同一结构上运行,而不会相互影响(嘈杂的邻居)。这消除了对特殊覆盖技术(如VxLAN)的需求,这些技术可能会引入延迟并需要复杂的配置。DriveNets允许存储和计算租户本地分离。
  • 高级存储功能:分离的环境为高级功能打开了大门,例如通过远程直接内存访问(RDMA)运行存储。虽然这在大多数AI工作负载中并不常见,但它可以显着降低集群复杂性和操作工作量。

InfiniBand是否仍然是企业人工智能集群的默认选择?

如前所述,大多数企业习惯于使用Nvidia解决方案,包括Nvidia GPU和InfiniBand连接,因为它们与标准以太网Clos相比具有出色的性能。然而,这些解决方案可能是昂贵的,需要专门的技能,并导致供应商锁定。

DriveNets Network Cloud-AI为企业提供卓越的解决方案。凭借其预定的结构,它可以提供最高的性能,而不会出现供应商锁定、高成本和复杂操作的缺点。无论是优先考虑性能、简单性、体验、监控还是存储,DriveNets Network Cloud-AI都是最佳选择。

+