一种新的云提供商已经出现——“NeoCloud”提供商。这些公司,如CoreWeave、Crusoe和Lambda,专注于出租GPU计算能力。华尔街已经注意到了这一点,向这些公司投资了数十亿美元,因为它们竞相建立大规模的GPU农场,并将自己确立为人工智能(AI)GPU计算的必选平台。
但这不仅适用于NeoCloud提供商——所有企业和人工智能开发人员都在疯狂冲刺,赶在竞争对手之前部署人工智能功能。这使得AI GPU集群的快速部署成为一个关键需求。
虽然硬件到位是一回事,但经常导致延迟的是网络。复杂的配置和无休止的调整会将网络部署变成一个缓慢而痛苦的过程。
实现高性能AI集群
那么,我们如何以最快的部署时间实现高性能的AI集群呢?答案在于理解和解决人工智能网络中的三个关键问题:
- 负载均衡:在数千个GPU上均匀分配流量对于最大限度地提高利用率和集群性能至关重要。负载平衡不佳会导致资源浪费,而优化负载均衡可以主动减少拥塞。
- 拥塞:AI工作负载产生突发数据流,如“incast”模式,可能使交换机超载,导致延迟和效率下降。
- 流量隔离:在多租户或共享结构中,有效的隔离防止性能干扰,需细致的资源管理和QoS策略。
虽然这些不是AI运营中的唯一挑战,但它们是最耗时的因素,尤其是在多租户环境中。
已知的人工智能基础设施行业解决方案
传统以太网
以太网因其熟悉度和成本优势而被广泛采用,但传统的Clos网络和基本拥塞机制(如ECN、PFC)并不足以应对现代AI集群的动态需求。即便是高端机箱型解决方案,在大规模GPU集群中也难以扩展。
高级专有解决方案
HPC市场早已面临类似挑战。英伟达的InfiniBand曾是主要方案,尽管性能优异,却缺乏以太网兼容性、多租户支持,并依赖专家长期调优。Spectrum-X作为改进产品,提供以太网支持及性能提升,但仍需ECMP和RoCEv2等复杂配置。
虽然UEC正在努力解决RoCEv2部署问题,但其解决方案尚未普及。
调度矩阵
NeoCloud和大型企业现可采用基于DDC架构的调度矩阵以太网解决方案,解决三大问题:
- 信元喷洒:实现负载均衡,避免瓶颈。
- 端到端VOQ:预防拥塞并实现流量隔离。
通过E2E VOQ和信元喷洒的结合,调度矩阵实现即插即用、可预测、无损的网络体验,无需复杂调优。
DriveNets AI基础设施——无需调整
新的AI热潮推动NeoCloud和企业竞相部署集群。虽然硬件资源逐渐充足,但连接大量GPU仍依赖复杂的网络技术,传统方法需要频繁调试。
调度矩阵以太网成为关键突破。DriveNets Network Cloud-AI通过内建的信元喷洒和E2E VOQ技术,提供即插即用的AI网络结构,无需调优或专用硬件。
DriveNets使AI集群部署时间从几周缩短至数天,并在一级超大规模网络实测中,通过以太网将JCT性能提升了30%。