• 首页
  • 报告
  • 合集
  • 资讯
  • 快讯
  • 图表
  • Ai问答
  • 网址导航

2025年基于CXL方案的AI应用研究

2026-1-13 08:34| 发布者: 派大星7 0

摘要: CXL(Compute Express Link)作为一种基于PCIe 5.0的高速互连技术,正在成为破解AI算力与存储瓶颈的关键路径。近日,开放数据中心委员会(ODCC)发布《2025年基于CXL方案的AI应用优化与研究》白皮书,系统探讨了CXL ...
CXL(Compute Express Link)作为一种基于PCIe 5.0的高速互连技术,正在成为破解AI算力与存储瓶颈的关键路径。

近日,开放数据中心委员会(ODCC)发布《2025年基于CXL方案的AI应用优化与研究》白皮书,系统探讨了CXL技术在MoE、LLM和GNN三大AI场景中的应用潜力与实测性能,为下一代AI数据中心的架构演进提供了权威指引。

CXL技术凭借内存扩展、内存共享和缓存一致性三大能力,打破了传统计算架构中CPU与GPU之间的内存孤岛。

尤其是在AI大模型训练和推理过程中,GPU显存容量有限的问题愈发突出,而CXL通过Type 3设备实现的内存池化,可将系统内存扩展至本地内存的10倍以上。

三星推出的CMM-D、SK海力士的CXL DRAM等产品已进入商用阶段,标志着CXL从实验室走向规模化部署。

在MoE(混合专家模型)场景中,模型参数庞大,推理时面临严重的“内存墙”问题。

白皮书提出首个基于CXL的MoE卸载框架——MoE Offload,利用CMM-D的大容量存储专家参数,并通过计算次序优化、I/O管理、流水线调度和预测性预取四项核心技术,显著降低GPU等待时间。

实测显示,该方案最高可节省82%的GPU内存占用,在内存减少55%的情况下性能损失仅为31%,展现出极高的性价比。

针对大语言模型(LLM)推理中的KV缓存膨胀问题,传统方案依赖SSD卸载,但存在高延迟瓶颈。

本研究构建了基于CXL的多层KV缓存系统,利用CXL内存作为锁页内存池,结合DMA实现低延迟传输。

通过预取优化、多进程并行和存储重叠技术,使数据传输与计算充分重叠。

实验表明,新方案相较旧DRAM方案提升7%,相较无CXL方案性能提升达21%,有效弥合了CXL与本地内存的性能差距。

在图神经网络(GNN)训练中,超大规模图数据常需从SSD加载特征,造成严重I/O瓶颈。

CMM-D GNN方案将图结构与特征数据迁移至CXL内存,并结合NVIDIA的UVA(统一虚拟寻址)技术,实现GPU对CXL内存的直接访问。

测试数据显示,CMM-D方案相较SSD方案训练效率提升8倍,相较传统DRAM方案提升2.5倍,大幅缩短了采样与聚合阶段的等待时间。

综合来看,CXL不仅是硬件层面的升级,更是AI系统架构的范式变革。

它通过统一内存池化,实现了计算资源与存储资源的弹性调度,显著提升了AI训练与推理的能效比。

随着CXL 3.0协议的推进,未来在跨节点内存池化、智能资源调度等方面还将释放更大潜力。

ODCC此次研究为AI基础设施的演进提供了扎实的技术路径,预示着2025年CXL将在AI数据中心迎来规模化落地的关键拐点。



出品方:ODCC
发布时间:2025年
文档页数:55页

本文由【报告派】研读,输出观点仅作参考。精品报告来源:报告派