2025年基于CXL方案的AI应用研究

2026-1-13 08:34| 发布者: 派大星7 0

摘要: CXL（Compute Express Link）作为一种基于PCIe 5.0的高速互连技术，正在成为破解AI算力与存储瓶颈的关键路径。近日，开放数据中心委员会（ODCC）发布《2025年基于CXL方案的AI应用优化与研究》白皮书，系统探讨了CXL ...

CXL（Compute Express Link）作为一种基于PCIe 5.0的高速互连技术，正在成为破解AI算力与存储瓶颈的关键路径。

近日，开放数据中心委员会（ODCC）发布《2025年基于CXL方案的AI应用优化与研究》白皮书，系统探讨了CXL技术在MoE、LLM和GNN三大AI场景中的应用潜力与实测性能，为下一代AI数据中心的架构演进提供了权威指引。

CXL技术凭借内存扩展、内存共享和缓存一致性三大能力，打破了传统计算架构中CPU与GPU之间的内存孤岛。

尤其是在AI大模型训练和推理过程中，GPU显存容量有限的问题愈发突出，而CXL通过Type 3设备实现的内存池化，可将系统内存扩展至本地内存的10倍以上。

三星推出的CMM-D、SK海力士的CXL DRAM等产品已进入商用阶段，标志着CXL从实验室走向规模化部署。

在MoE（混合专家模型）场景中，模型参数庞大，推理时面临严重的“内存墙”问题。

白皮书提出首个基于CXL的MoE卸载框架——MoE Offload，利用CMM-D的大容量存储专家参数，并通过计算次序优化、I/O管理、流水线调度和预测性预取四项核心技术，显著降低GPU等待时间。

实测显示，该方案最高可节省82%的GPU内存占用，在内存减少55%的情况下性能损失仅为31%，展现出极高的性价比。

针对大语言模型（LLM）推理中的KV缓存膨胀问题，传统方案依赖SSD卸载，但存在高延迟瓶颈。

本研究构建了基于CXL的多层KV缓存系统，利用CXL内存作为锁页内存池，结合DMA实现低延迟传输。

通过预取优化、多进程并行和存储重叠技术，使数据传输与计算充分重叠。

实验表明，新方案相较旧DRAM方案提升7%，相较无CXL方案性能提升达21%，有效弥合了CXL与本地内存的性能差距。

在图神经网络（GNN）训练中，超大规模图数据常需从SSD加载特征，造成严重I/O瓶颈。

CMM-D GNN方案将图结构与特征数据迁移至CXL内存，并结合NVIDIA的UVA（统一虚拟寻址）技术，实现GPU对CXL内存的直接访问。

测试数据显示，CMM-D方案相较SSD方案训练效率提升8倍，相较传统DRAM方案提升2.5倍，大幅缩短了采样与聚合阶段的等待时间。

综合来看，CXL不仅是硬件层面的升级，更是AI系统架构的范式变革。

它通过统一内存池化，实现了计算资源与存储资源的弹性调度，显著提升了AI训练与推理的能效比。

随着CXL 3.0协议的推进，未来在跨节点内存池化、智能资源调度等方面还将释放更大潜力。

ODCC此次研究为AI基础设施的演进提供了扎实的技术路径，预示着2025年CXL将在AI数据中心迎来规模化落地的关键拐点。

出品方：ODCC
发布时间：2025年
文档页数：55页