MLPerf Storage v2.0 概述
MLPerf Storage 是由 MLCommons 组织开发的标准化基准测试套件,专为评估 AI 工作负载下的存储系统性能而设计。v2.0 版本于 2025 年 8 月发布,引入了多项升级,包括更大的数据集规模(如 1TB+ 的训练数据)和更贴近真实场景的 AI 任务:GPT-3 风格模型的预训练、微调,以及 Stable Diffusion 等生成式 AI 推理。
本次测试聚焦关键指标:读吞吐量、写吞吐量、读延迟 和 写延迟,模拟多节点 GPU 集群环境下的高并发 I/O 操作。
测试结果亮点
- 顶级性能:NVIDIA DGX SuperPOD 搭配 DDN EXAScaler 存储系统,在 256 GPU 训练任务中,实现读吞吐量高达 45 TB/s,写吞吐量 32 TB/s,领先其他提交。
- 推理优化:Pure Storage FlashArray 在 Stable Diffusion 推理基准中,延迟低至 50μs,吞吐量超 20 TB/s,适合实时生成应用。
- 网络创新:多家系统采用 NVMe-oF over RoCEv2 或 InfiniBand,实现端到端低延迟。
详细结果分析
MLCommons 发布了 20 多个提交结果,覆盖从单机到超级计算集群的多种配置。
训练基准
- NVIDIA + DDN:读 45 TB/s,完成时间缩短 25% 对比 v1.0。
- NetApp + NVIDIA:平衡性最佳,性价比突出。
- HPE + VAST Data:在大规模扩展中表现出色,支持 1024 GPU。
推理基准
- Pure Storage:延迟优化 40%,适用于 Llama 模型推理。
- IBM Storage Scale:高密度部署优势明显。
所有结果均经过严格审计,确保可重复性和公平性。图表显示,随着节点数增加,线性扩展性成为关键挑战。
行业意义
MLPerf Storage v2.0 结果凸显存储在 AI 基础设施中的瓶颈已成过去,高性能存储正成为 AI 训练加速器的标配。厂商竞争激烈,推动 NVMe、QDR 等技术迭代。LMSYS Org 等组织积极参与,助力开源基准生态。
完整结果详见 官方页面。