为什么不选择英伟达?

人工智能网络结构的替代方案 

刚从今年SC24会议的举办地亚特兰大回来。以下是高性能计算、网络、存储和分析国际会议的一些亮点。

英伟达无处不在

除了冷却技术,展会上展示的几乎所有计算实例都来自英伟达。

穿过大厅,很难错过许多展位上展示的多个GB200 NVL72机架,以及大厅里大量的“英伟达合作伙伴”标志。英伟达在展会周发布的另一个创纪录的季度业绩也有助于证明NVIDIA在当今计算世界的主导地位,特别是在人工智能训练和推理基础设施方面。

而且它不仅仅围绕计算GPU和CPU。支持的基础设施——比如存储、网络,甚至电源和冷却——也是由英伟达提供或认证的(或至少与英伟达的蓝图保持一致)。

与英伟达合作?

那么,它是如何活在“NVIDIA时代”的呢?

在展会期间,我与许多使用和销售英伟达设备的客户和合作伙伴进行了交谈,从GPU到SmartNIC。我听到的普遍反应是矛盾。

一方面,让英伟达成为事实上的行业标准让生活变得非常轻松。当您坚持使用定义良好的参考体系结构时,可以避免许多令人头痛的集成问题。

另一方面,这样一个占主导地位的供应商几乎消除了对您的架构的控制,使您在定价、架构和供应链方面没有任何影响力。对于终端客户和合作伙伴/经销商都是如此。

不与英伟达合作?

那么,还有什么选择呢?

说到GPU,除了英伟达的生态系统之外,没有多少其他选择。尽管我们开始看到AMD Instinct解决方案受到好评,但每个人都认为这不会永远持续下去。

与此同时,客户和合作伙伴都在寻找替代英伟达在支持架构方面的主导地位——特别是在网络领域。

网络优先

为什么网络如此重要?首先,正如之前多次讨论的那样,它被确定为影响整个GPU集群性能(就作业完成时间而言,JCT)的关键点之一。如果它是一个用于培训的非常大的集群,情况尤其如此。

其次,这个领域有多种解决方案,并不是所有的解决方案在性能(高容量、低延迟、低抖动、快速故障恢复)方面都是足够的。但是,这一点很重要,性能最高的解决方案并非来自英伟达。

调度和微调

实现高性能AI后端网络的关键是调度。这是因为RoCE(聚合以太网上的RDMA)的性质要求低尾部延迟、低抖动和低丢包。这需要最小的拥塞,而拥塞只能通过调度机制来缓解或避免。

有两种类型的调度机制——端点调度(在InfiniBand、超以太网、英伟达的Spectrum-X等中实现)和矩阵调度(在DriveNets的DDC、Meta的DSF和Arista的DES中实现)。

虽然端点调度可以产生合理的性能,但最高性能的网络解决方案使用矩阵调度架构。由于最终英伟达不提供这样的解决方案,您可以运行非英伟达网络并从中受益。非英伟达结构调度解决方案不仅没有被锁定在英伟达生态系统中,而且还提供了卓越的性能。

image-1-1024x422

另一个积极的副作用,对一些客户来说是最重要的,是部署时间好处。端点调度解决方案在启动期间以及在任何情况下更改GPU集群上运行的工作负载类型时都需要进行大量的微调。对于矩阵调度解决方案,实施要简单得多,基本上是一个即插即用的过程,不需要进行微调或特殊的知识/技能。

从人工智能网络试验到大规模部署

虽然网络通常不是大多数客户最关心的问题,但随着人工智能集群的壮大,它的影响变得至关重要。虽然上周我们听到很多客户谈论今年相当小的部署,但他们中的大多数都计划在不久的将来部署更大的集群。这使得今天是考虑满足长期需求的最佳网络解决方案的好时机。

+