MLPerf Storage v2.0 基准测试结果发布

MLPerf Storage v2.0 概述

MLPerf Storage 是由 MLCommons 组织开发的标准化基准测试套件,专为评估 AI 工作负载下的存储系统性能而设计。v2.0 版本于 2025 年 8 月发布,引入了多项升级,包括更大的数据集规模(如 1TB+ 的训练数据)和更贴近真实场景的 AI 任务:GPT-3 风格模型的预训练、微调,以及 Stable Diffusion 等生成式 AI 推理。

本次测试聚焦关键指标:读吞吐量写吞吐量读延迟写延迟,模拟多节点 GPU 集群环境下的高并发 I/O 操作。

测试结果亮点

  • 顶级性能:NVIDIA DGX SuperPOD 搭配 DDN EXAScaler 存储系统,在 256 GPU 训练任务中,实现读吞吐量高达 45 TB/s,写吞吐量 32 TB/s,领先其他提交。
  • 推理优化:Pure Storage FlashArray 在 Stable Diffusion 推理基准中,延迟低至 50μs,吞吐量超 20 TB/s,适合实时生成应用。
  • 网络创新:多家系统采用 NVMe-oF over RoCEv2 或 InfiniBand,实现端到端低延迟。

详细结果分析

MLCommons 发布了 20 多个提交结果,覆盖从单机到超级计算集群的多种配置。

训练基准

  • NVIDIA + DDN:读 45 TB/s,完成时间缩短 25% 对比 v1.0。
  • NetApp + NVIDIA:平衡性最佳,性价比突出。
  • HPE + VAST Data:在大规模扩展中表现出色,支持 1024 GPU。

推理基准

  • Pure Storage:延迟优化 40%,适用于 Llama 模型推理。
  • IBM Storage Scale:高密度部署优势明显。

所有结果均经过严格审计,确保可重复性和公平性。图表显示,随着节点数增加,线性扩展性成为关键挑战。

行业意义

MLPerf Storage v2.0 结果凸显存储在 AI 基础设施中的瓶颈已成过去,高性能存储正成为 AI 训练加速器的标配。厂商竞争激烈,推动 NVMe、QDR 等技术迭代。LMSYS Org 等组织积极参与,助力开源基准生态。

完整结果详见 官方页面

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!