在当今竞争激烈的人工智能(AI)环境中,超大规模运营商和大型企业正在迅速认识到对开放、可扩展和灵活的技术基础设施的迫切需求。传统上对供应商锁定系统的依赖,尤其是那些依赖英伟达人工智能硬件和光学器件的系统,带来了巨大的挑战,包括高成本、供应限制、有限的灵活性和专业技能要求。这放大了开放架构的重要性,使组织能够混合和匹配硬件组件,加速创新并确保长期适应性。
用DriveNets拥抱开放式人工智能基础设施
DriveNets Network Cloud-AI以其开放的标准架构提供了另一种选择,使组织能够摆脱传统的限制,并通过供应链的多样性降低风险。以下是DriveNets如何培养开放的人工智能基础设施…
硬件灵活性
DriveNets提供了无与伦比的灵活性,允许超大规模运营商和企业定制其基础设施。DriveNets实现:
- GPU、ASIC和ODM多样性:支持多个以太网NIC/DPU、各种GPU/加速器和来自多个白盒ODM提供商的各种网络ASIC,确保成本效益和可扩展性
- 多种光学选择:与多家供应商(如富士通、Acacia、Ciena、Infinera等)的光学器件兼容,缓解供应链瓶颈,确保一致的交付时间表
供应链多样性
DriveNets的开放式生态系统通过多种硬件来源促进了供应链的多样性、减少了对单一供应商的依赖和实现了架构的灵活性。通过遵守开放计算项目(OCP)分布式解耦机箱(DDC)规范,DriveNets平台确保了真正的开放性和互操作性。
以太网:人工智能网络的新标准
随着人工智能和高性能计算(HPC)工作负载的不断发展,以太网正在成为主要的人工智能网络解决方案。DriveNets处于这一转型的最前沿,其加入超以太网联盟(UEC)以及致力于开放、多供应商以太网解决方案就是明证。
这种转变的好处包括:
- 互操作性:标准化架构消除了供应商锁定。
- 简化部署:基于以太网的解决方案降低了复杂性,实现了更快的上线时间(TTM)和部署时间(TTD),同时利用市场上的通用技术,消除了对InfiniBand专业知识的需求。
- 缩短作业完成时间(JCT):DriveNets Network Cloud-AI 还通过以太网将JCT性能提高了30%,这一点在领先的研究公司网络的生产中得到了证明。
简化AI集群管理
配置具有数千个GPU的大型AI集群可能会令人望而生畏。DriveNets Network Cloud-AI通过最大限度地减少人工智能集群重新配置的需求,解决了这一挑战。DriveNets解决方案支持灵活的工作负载管理,在工作负载之间无缝转换,同时支持不同的GPU和NIC供应商,而无需复杂的调优。
与其他基于以太网的解决方案不同,这些解决方案通常需要大量的调优和配置调整(缓存大小、PFC、ECN等),DriveNets Network Cloud-AI最大限度地减少了重新配置的需求,实现了工作负载之间的无缝转换。
此外,该解决方案通过为后端和存储连接提供单个网络来提供统一的网络管理。存储在AI工作负载中起着至关重要的作用,因为它直接影响性能。因此,在构建集群基础架构时,确保存储网络的完美对齐也是至关重要的。
DriveNets Network Cloud-AI通过在同一矩阵网络上承载存储和计算流量来增强存储网络,而不会相互影响(“嘈杂的邻居”问题)。这消除了对特殊覆盖技术(如VXLAN封装)的需求,减少了延迟,简化了AI集群的整体管理。
开放的AI基础设施是必须的
在部署人工智能能力的竞赛中,开放基础设施不再是可选的——它们是必不可少的。DriveNets的开放标准平台使超大规模企业和大型企业能够摆脱英伟达的InfiniBand锁定,简化硬件和光学器件采购,并实现强大的供应链,最终加速他们的人工智能之旅。
通过采用以太网作为人工智能网络的骨干,并利用一个解耦的、开放的生态系统,DriveNets可以实现更快的部署、更高的性能和无与伦比的灵活性。