RoCEv2作为横向扩展传输协议

与调度矩阵的以太网协同使用性能极佳 

随着数据中心需求呈指数级增长,企业和云提供商都在推动网络的极限,以支持人工智能工作负载、大规模分析和分布式存储。      

远程直接内存访问(RDMA)是一种非常成功的技术,它允许图形处理单元(GPU)、张量处理单元(TPU)或其他加速器将数据直接从发送方的内存传输到接收方的内存。这种零拷贝方法可实现低延迟并避免操作系统开销。因此,支持RDMA的网络技术是当今人工智能培训工作的基本组成部分。

RDMA基于融合的以太网版本2(RoCEv2)协议是为RDMA在IP和以太网网络上运行而创建的。RoCEv2已经成为一种领先的横向扩展传输协议,承诺高吞吐量和低延迟。然而,与任何不断发展的技术一样,RoCEv2并非没有挑战。虽然RoCEv2无疑是强大的,但它严重依赖于特定的机制,如优先级流控制(PFC)和重传技术,这带来了复杂性和低效率。

RoCEv2的三个关键问题

让我们深入探讨三个关键领域,说明为什么RoCEv2很好,但可以通过解耦分布式机箱(DDC)调度矩阵的以太网解决方案进行改进。

来自PFC的强缓存

RoCEv2的基石之一是它依赖于PFC来创建无损以太网环境。PFC允许按优先级进行流量控制,当在特定优先级队列上检测到拥塞时暂停流量,这听起来非常适合在RDMA流量中保持数据包的完整性。然而,这种方法需要大量的缓存来有效地处理暂停的流量,并可能导致性能瓶颈:

  • 缓冲压力:交换机和网络设备需要大的缓冲来吸收突发的流量,而暂停的队列则可以清除拥塞。这种缓冲需求随着网络规模的扩大而增长,从而导致昂贵的硬件升级。
  • 性能可变性:设备之间不一致的缓冲分配会导致性能瓶颈,特别是在异构Clos环境中。

PFC拥堵效应

虽然PFC可以实现无损传输,但它可能无意中导致多种拥塞效应:

  • PFC风暴(拥堵蔓延):连续的暂停帧可能导致PFC风暴,影响关键应用程序。
  • 牺牲的流量:具有相同优先级但与拥塞源无关的流量,也会因共享队列而被暂停。
  • 拥塞树:某一点的拥塞可能级联,创建影响网络大部分的拥塞树。
  • 死锁:当多个设备不断发送PFC帧时,可能发生死锁,需要人工干预。

Go-Back-N重传

RoCEv2采用Go-Back-N重传策略,任何丢失的数据包都会触发该数据包和序列中所有后续数据包的重传,即使它们已被成功接收。这导致:

  • 带宽浪费:重新发送已经收到的数据包会降低网络效率。
  • 延迟增加:多个数据包的重传增加延迟,尤其是在大规模部署中。

总之,RoCEv2的拥塞控制机制依赖于PFC和重传超时。这种响应式缓解方法引入了延迟和低效率,特别影响延迟敏感的应用如AI模型训练。

我们接下来该何去何从?

虽然大型无损RoCE网络已经成功部署,但它们需要精细调优和持续监控,并非所有运营商具备这种能力,导致高TCO。

超以太网联盟(UEC)旨在以UET取代RoCE,建立开放、互操作、高性能的以太网架构,以应对AI和HPC的挑战。

RoCEv2-as-a-Scale-out-Transport-Protocol-blog_graph

RoCEv2 as a Scale-out Transport Protocol 来源:SNIA.org

在UEC成熟之前,企业可以使用调度矩阵以太网实现基于RoCEv2的无损预测网络。

解耦架构结合虚拟输出队列(VOQ)技术,使AI后端网络结构既无损又可预测。VOQ确保数据包仅在目标准备好接收时才发送,避免瓶颈和丢包。

与依赖拥塞缓解的传统RoCEv2架构不同,调度矩阵以太网结合VOQ和ECN/PFC机制,采用拥塞预防策略,确保即使在大规模部署中也能实现平滑高效的数据流。

行业如何将RoCEv2推向新的高度

RoCEv2已在现代数据中心得到验证,但其对PFC、基于超时的拥塞控制和Go-Back-N的依赖说明仍有提升空间。

在DriveNets,我们通过DDC架构和调度矩阵以太网重新定义网络,着重于拥塞预防而非缓解,提供预测性无损RoCEv2网络,确保在大规模部署中获得卓越性能和可靠性。

我们期待您的声音。您如何看待RoCEv2与AI驱动网络的未来?让我们一起推动行业前行!

+