使用正確的集群結構優化企業人工智慧

ChatGPT 於 2022 年 11 月 30 日推出。從那時起,AI(人工智慧)幾乎成為每個行業最常用的流行語。似乎每個人都渴望擁抱人工智慧並在各種用例中利用其潛在優勢。

因此,許多公司已開始部署人工智慧工作負載,以實現從資料處理到產生人工智慧 (GenAI) 等任務的解決方案。

Optimize-Your-Enterprise-AI-with-the-Right-Cluster-Fabric-image1

結構遷移到乙太網路?

用於解決複雜問題的大規模計算集群的起源可以追溯到 20 世紀中葉。然而,在過去十年中,高效能運算 (HPC) 在人工智慧等任務中的使用迅速成長。超大規模企業和其他 HPC 叢集建構商已採用專門的硬體和軟體來優化其叢集以滿足新要求。
DriveNets 網路雲簡介

ホワイトペーパーのダウンロードは

英偉達是人工智慧熱潮的最大受益者之一。大多數公司都熟悉 Nvidia 的解決方案,並使用該公司的 GPU 和基於 InfiniBand 的連接解決方案。也就是說,公司也了解與供應商鎖定相關的潛在風險,並提倡建立更多樣化的供應商生態系統。因此,像乙太網路這樣的開放和成熟的連接協定正在成為首選。

 

儘管預計乙太網路將取代 InfiniBand,但乙太網路目前也存在一些缺點,主要是與效能相關的缺點。多種乙太網路「增強功能」可用於填補這一效能差距:
  • 獨特的基於端點的擁塞控制機制
  • 開放超乙太網路聯盟(UEC)提供基於乙太網路的、開放的、可互通的高效能全通訊堆疊架構,旨在滿足大規模人工智慧和高效能運算不斷增長的網路需求。
  • 調度結構的替代方案包括分解分散式機箱 (DDC)、Cisco 的分解調度結構 (DSF) 和 Arista 的分散式 Etherlink 交換器 (DES)。這些可以在訓練人工智慧工作負載所需的規模上提供最佳效能。
研究公司 650 Group 預測,基於乙太網路的解決方案在 AI/ML(機器學習)市場上的表現將顯著優於 InfiniBand。到 2024 年,InfiniBand 將佔據約三分之二的市場價值,而我們預測到 2028 年,基於乙太網路的解決方案將佔據 70% 以上的市場份額。
 
Optimize-Your-Enterprise-AI-with-the-Right-Cluster-Fabric-image2

 

企業對網路基礎設施的關鍵需求

最近的大多數 AI 新聞都是關於超大規模企業構建具有高達 32K(K 為 1,000)GPU 的大型 AI 工作負載集群,以訓練 GPT、LaMDA 和 DALL-E(Microsoft、Google、Meta、Amazon、等)重點關注。本部落格文章重點介紹從 1K 到 8K GPU 建置小型但規模較大的 AI 工作負載的公司。即使在這種規模下,管理基礎設施也涉及資料處理、計算、演算法最佳化和叢集連接方面的許多複雜性。

本文介紹了建構 AI 工作負載的企業面臨的網路挑戰和關鍵要求,以及 Drive Nets Network Cloud-AI 如何滿足這些要求。

表現

對於人工智慧工作負載來說,最重要的要求是效能。訓練 AI 工作負載需要高效能、無損且可預測的 GPU 到 GPU 連接,以實現最高效和最佳的作業完成時間 (JCT) 目標。如同前面所提到的,Nvidia的InfiniBand解決方案儘管存在固有的困難(配置複雜性、供應商鎖定、成本等),但仍能提供卓越的效能,這也是大多數企業選擇使用它的原因。


DriveNets Network Cloud-AI是一种采用DDC(分布式分布式机箱)架构的分布式网络操作系统(NOS)。这种预定的结构将单元分布在结构上,以确保完全均匀的负载分布。这与虚拟输出队列 (VoQ) 机制和基于授权的流量控制相结合,可实现真正的无损环境,具有类似于机箱背板的无阻塞、无拥塞结构。此外,基于硬件的链路恢复可确保高性能和可靠性,尤其是在人工智能工作负载等要求苛刻的大规模环境中。

在包括字节跳动在内的多种流行超大规模网络的生产环境中,DriveNets 的 JCT 性能比标准以太网提高了 30%。 

机制简单
具有数千个 GPU 的大型集群可能很难设置,特别是在以最佳性能为目标时。与其他通常需要大量调整和配置调整(缓冲区大小、PFC、ECN 等)的基于以太网的解决方案不同,DriveNets Network Cloud-AI 最大限度地减少了重新配置的需要。这可以实现工作负载和不断变化的 GPU/NIC 供应商之间的无缝迁移。连接后,DriveNets Network Cloud-AI 可提供高性能、基于以太网的结构连接,无需复杂配置的麻烦。

成就
经过验证的 AI 网络解决方案通过在多样化且要求苛刻的 AI 工作负载环境中持续运行,证明了其可靠性。这就是许多企业倾向于使用默认的基于 InfiniBand 的解决方案的主要原因。

DriveNets Network Cloud-AI是字节跳动在生产中部署的第一个DDC AI调度结构。这是全球首批基于以太网的大规模人工智能后端网络部署之一。拥有数千个 GPU 的世界领先的超大规模企业的生产运营在现实世界的超大规模环境中展示了可靠性和性能。

可观察性
拥有大规模人工智能工作负载的企业需要先进的可观察性和监控能力来识别和解决性能问题,确保高可用性并分析人工智能模型行为。这种高级功能必须能够提供广泛的可观察性工具,从 CLI 和 SNMP 等低级选项到用于无缝集成和自动化的 API 等高级功能。内部开发的人工智能集群一方面依赖传统的命令行工具来解决临时问题,但另一方面,人力资源有限,简单性和自动化也至关重要。

DriveNets Network Cloud-AI 提供了一整套可观测性选项。在较低级别,您可以使用单个 CLI、gRPC、NETCONF/YANG 等将整个集群作为单个网络实体进行操作。在更高的层面上,利用 DriveNets Network Orchestrator (DNOR) 作为端到端平台,通过 API 进行网络监控、规划和优化。 DNOR 与其他管理系统无缝集成,使您能够充分利用其全部功能,包括零接触配置 (ZTP) 和无缝软件升级等自动化功能。这显着降低了运营成本和工作量。

贮存
存储在人工智能工作负载中发挥着至关重要的作用,因为它直接影响性能。在构建集群基础设施时,存储网络也必须得到完美调整。

使用 DriveNets Network Cloud-AI 时,集群构建者可以利用 DDC 的强大功能为其存储网络提供支持:

沙盒多租户:DriveNets DDC 集群固有的沙盒多租户功能允许存储和计算流量在同一结构上共存,而不会相互影响(Masu)。这消除了对引入延迟且需要复杂配置的特殊覆盖技术(例如 VxLAN)的需求。 DriveNets 允许存储和计算租户的本机分离。

高级存储功能:隔离环境支持高级功能,例如通过远程直接内存访问 (RDMA) 执行存储功能。尽管这对于大多数人工智能工作负载来说并不常见,但它可以显着降低集群复杂性和运营工作量。

InfiniBand 是否仍应成为网络基础设施的默认选择?

大多数企业习惯于使用 Nvidia 解决方案,例如 Nvidia GPU 和 InfiniBand 连接,因为与标准以太网 Clos 相比,它们具有卓越的性能。然而,这些解决方案价格昂贵,需要专业技能,并且可能导致供应商锁定。

DriveNets Network Cloud-AI为企业提供了出色的解决方案。预定结构使您能够提供最佳性能,同时避免供应商锁定、高成本和操作复杂性等问题。无论您的首要任务是性能、简单性、跟踪记录、监控还是存储,DriveNets Network Cloud-AI 都是您的最佳选择。



+