【产业信息速递】CXL在AI时代已死

来源:世展网 分类:半导体行业资讯 2024-03-19 13:47 阅读:6583
分享:

2025年中国无锡半导体设备年会展览会CSEAC

2025-09-03-09-05

距离112

(信息来源:semianalysis

 

如果我们把时间拉回到两年前,在人工智能迅速崛起之前,数据中心硬件领域的许多人都在追逐CXL。它被许诺为带来异构计算、内存池和可组合服务器架构的救世主。现有厂商和一大批新创公司都急于将 CXL 集成到自己的产品中,或创建基于 CXL 的新产品,如内存扩展器、池器和交换机。时至 2023 年和 2024 年初,许多项目已被悄然搁置,许多超大规模企业和大型半导体公司几乎已完全转向其他领域。

 

随着 Astera Labs 即将上市和产品发布,CXL 的讨论至少在短期内又回到了前排。我们已经就这项技术、其为云服务提供商节约成本的潜力以及生态系统和硬件堆栈撰写了大量文章。虽然从纸面上看非常有前景,但数据中心的格局已经发生了很大变化,但有一点没有改变:控制器和交换机等 CXL 硬件仍未大量上市。尽管如此,围绕 CXL 的讨论和研究仍然不绝于耳,业内某些专业人士现在还在鼓吹 CXL 是人工智能的 "助推器"。

 

更广泛的 CXL 市场是否已经准备好起飞并实现其承诺?CXL 能否成为人工智能应用的互连器件?CXL 在 CPU 附加扩展和池化中的作用是什么?我们将在本报告的用户部分回答这些问题。

 

简单的答案是否定的--推动 CXL 用于人工智能的人大错特错。让我们先快速回顾一下 CXL 的主要用例和承诺。

 

CXL 快速复习概述

 

CXL 是一种建立在 PCIe 物理层之上的协议,可实现跨设备的高速缓存和内存一致性。利用 PCIe 接口的广泛可用性,CXL 允许在各种硬件之间共享内存:CPU、网卡和 DPU、GPU 和其他加速器、SSD 和内存设备。

 

这样就可以实现以下用例:

 

内存扩展:CXL可帮助增加服务器的内存带宽和容量。

 

内存池:CXL 可以创建内存池,将内存从 CPU 中分离出来,理论上可以大幅提高 DRAM 利用率。从纸面上看,这可以为每个云服务提供商节省数十亿美元。

 

异构计算:ASIC 的效率远远高于通用CPU。CXL 可以在 ASIC 和通用计算之间提供低延迟缓存一致性互连,从而帮助实现异构计算,这样应用程序就可以更轻松地将它们集成到现有代码库中。

 

可组合服务器架构:服务器被分解成不同的组件并放置在不同的组中,这些资源可以动态地分配给不同的工作负载,从而提高资源滞留率和利用率,同时更好地满足应用需求。

 

下图说明了部分情况:CXL 可以解决主系统内存和存储之间的延迟和带宽差距,从而实现新的内存层。

 

SNIA

 

有些人预测,到 2028 年,CXL的销售额将高达 150 亿美元,而现在只有几百万美元,因此我们认为是时候对 CXL 市场进行适当的更新了,因为这种说法简直太荒谬了。让我们先来谈谈人工智能的 CXL 案例。

 

CXL 不会成为人工智能时代的互联技术

 

目前,CXL 的可用性是主要问题,因为Nvidia GPU 不支持它,而 AMD 的技术仅限于MI300A。虽然 MI300X 理论上可以在硬件上支持CXL,但它并没有正确地暴露出来。CXL IP 的可用性在未来会有所改善,但除了可用性之外,还有更深层次的问题使 CXL 在加速计算时代失去了意义。

 

两个主要问题与 PCIe SerDes 和海滨或海岸线区域有关。芯片的 IO 通常必须来自芯片边缘。下面这张来自 Nvidia 的图片以漫画的形式展示了 H100。中央是所有的计算区域。顶部和底部两侧 100% 专用于 HBM。从 H100 到 B100,HBM 数量增加到 8 个,需要更多的岸线面积。Nvidia 将继续在其 2 芯片封装的整整两侧使用 HBM。

 

剩下的两面专门用于其他芯片到芯片的 IO,这也是标准和专有互连争夺芯片面积的地方。H100 GPU 有 3 种 IO 格式:PCIe、NVlink 和 C2C(用于连接 Grace)。Nvidia 决定只包含最少的 16 条 PCIe 通道,因为Nvidia 在很大程度上更喜欢后者 NVLink 和 C2C。请注意,服务器 CPU(如 AMD 的 Genoa)的 PCIe 通道最多可达 128 条。

 

做出这种选择的主要原因是带宽。16 通道 PCIe 接口每个方向的带宽为 64GB/s。Nvidia 的 NVlink 为其他GPU 带来了 450 GB/s 的双向带宽,大约高出 7 倍。Nvidia 的 C2C 也能为Grace CPU 带来每秒 450GB 的双向带宽。为了公平起见,Nvidia 为 NVLink 提供了更多的岸线面积,因此我们需要将硅片面积也计算在内;但即便如此,我们估计在各种 SOC 中,Nvidia NVLink、Google ICI 等以太网式 SerDes 每平方毫米的单位岸线面积带宽要高出 3 倍。

 

因此,如果你是一个带宽受限的芯片设计者,当你选择使用 PCIe 5.0 而不是 112G 以太网式 SerDes 时,你的芯片大约要差 3 倍。随着下一代图形处理器和人工智能加速器采用 224G SerDes,这种差距将继续存在,并与 PCIe 6.0 / CXL 3.0 保持 3 倍的差距。我们处在一个焊盘有限的世界,放弃 IO 效率是一种疯狂的权衡。

 

人工智能集群的主要扩展和缩小互联将采用专有协议,如 Nvidia NVlink 和 Google ICI,或以太网和 Infiniband。这是因为 PCIe SerDes 本身的局限性,即使在扩展格式中也是如此。由于延迟目标不同,PCIe和以太网 SerDes 对误码率(BER)的要求也大相径庭。

 

Astera 实验室

 

PCIe 6 要求误码率小于1e-12,而以太网要求 1e-4。之所以存在 8 个数量级的巨大差异,是因为 PCIe 有严格的延迟要求,因此必须采用极轻的前向纠错(FEC)方案。FEC 在发送器中以数字方式添加冗余奇偶校验比特/信息,接收器利用这些比特/信息来检测和纠正错误(比特翻转),这与内存系统中的 ECC 非常相似。较重的 FEC 会增加更多开销,占用本可用于数据位的空间。更重要的是,FEC 会增加接收器的大量延迟。这就是 PCIe 在 Gen6 之前一直避免使用任何 FEC 的原因。

 

Wikipedia

 

以太网式 SerDes 受严格的PCIe 规范限制更少,因此速度更快,带宽更高。因此,NVlink 的延迟更高,但这在大规模并行工作负载的人工智能世界中并不重要,因为 ~100ns 与 ~30ns 并不是值得考虑的因素。

 

首先,MI300 AID 将大部分海滨区域用于 PCIe SerDes,而不是以太网式 SerDes。虽然这为 AMD 在 IFIS、CXL 和 PCIe 连接方面提供了更多的可配置性,但却导致总 IO 约为以太网式 SerDes 的 1/3。如果 AMD想要与 Nvidia 的 B100 竞争,就必须立即放弃 PCIe 式 SerDes 的人工智能加速器。我们相信,MI400 也将如此。

 

AMD 缺乏高质量 SerDes 严重限制了其产品的长期竞争力。他们提出了 Open xGMI / Open Infinity Fabric / Accelerated Fabric Link,因为 CXL 并不是人工智能的正确协议。虽然它主要基于 PCIe,但由于上市时间、性能、一致性和覆盖范围等原因,它确实摒弃了 PCIe 7.0 和 CXL 的一些标准功能。

 

用于人工智能的 CXL 内存带宽扩展如何?定制人工智能超级分频器芯片的采用情况如何?其他供应商的定制硅芯片(如 Marvell Google CXL 芯片)又如何呢?

会务组联系方式  

展会咨询13248139830

相关半导体行业展会

2025年上海国际半导体展览会 SEMICON CHINA

2025-03-26~03-28 展会结束
593763展会热度 评论(0)

2025年台湾半导体展览会Semicon Taiwan

2025-09-10~09-12 距离119
85534展会热度 评论(0)

2025年重庆全球半导体产业展览会GSIE

2025-05-08~05-10 展会结束
67782展会热度 评论(0)

2025年深圳大湾区半导体展-湾芯展SEMiBAY

2025-10-15~10-17 距离154
60499展会热度 评论(0)

2025年中国北京国际半导体展览会IC China

2025-08-27~08-29 距离105
46352展会热度 评论(0)

2025年深圳高交会半导体与集成电路展CHTF

2025-11-14~11-16 距离184
79275展会热度 评论(0)

2025年中国无锡半导体设备年会展览会CSEAC

2025-09-03~09-05 距离112
93752展会热度 评论(0)
X
客服
电话
13924230066

服务热线

扫一扫

世展网公众号

微信小程序

销售客服

门票客服

TOP
X