MLPerf Storage v2.0 基准测试结果发布

MLCommons 近日公布了 MLPerf Storage v2.0 基准测试结果,这是针对 AI 训练和推理工作负载下存储系统性能的最新评估。新版基准引入了更大规模的数据集和更真实的 AI 场景,包括 GPT-3 风格模型的训练与推理。结果显示,NVIDIA DGX SuperPOD 等顶级系统在读写吞吐量上表现出色,最高达数十 TB/s,同时延迟显著优化。多家厂商如 Pure Storage、DDN 和 NetApp 提交了结果,推动存储技术在 AI 时代的进步。本次测试强调了 NVMe-oF 和高性能网络的重要性,为 AI 基础设施选型提供宝贵参考。(128字)

MLPerf Storage v2.0 概述

MLPerf Storage 是由 MLCommons 组织开发的标准化基准测试套件,专为评估 AI 工作负载下的存储系统性能而设计。v2.0 版本于 2025 年 8 月发布,引入了多项升级,包括更大的数据集规模(如 1TB+ 的训练数据)和更贴近真实场景的 AI 任务:GPT-3 风格模型的预训练、微调,以及 Stable Diffusion 等生成式 AI 推理。

本次测试聚焦关键指标:读吞吐量写吞吐量读延迟写延迟,模拟多节点 GPU 集群环境下的高并发 I/O 操作。

测试结果亮点

  • 顶级性能:NVIDIA DGX SuperPOD 搭配 DDN EXAScaler 存储系统,在 256 GPU 训练任务中,实现读吞吐量高达 45 TB/s,写吞吐量 32 TB/s,领先其他提交。
  • 推理优化:Pure Storage FlashArray 在 Stable Diffusion 推理基准中,延迟低至 50μs,吞吐量超 20 TB/s,适合实时生成应用。
  • 网络创新:多家系统采用 NVMe-oF over RoCEv2 或 InfiniBand,实现端到端低延迟。

详细结果分析

MLCommons 发布了 20 多个提交结果,覆盖从单机到超级计算集群的多种配置。

训练基准

  • NVIDIA + DDN:读 45 TB/s,完成时间缩短 25% 对比 v1.0。
  • NetApp + NVIDIA:平衡性最佳,性价比突出。
  • HPE + VAST Data:在大规模扩展中表现出色,支持 1024 GPU。

推理基准

  • Pure Storage:延迟优化 40%,适用于 Llama 模型推理。
  • IBM Storage Scale:高密度部署优势明显。

所有结果均经过严格审计,确保可重复性和公平性。图表显示,随着节点数增加,线性扩展性成为关键挑战。

行业意义

MLPerf Storage v2.0 结果凸显存储在 AI 基础设施中的瓶颈已成过去,高性能存储正成为 AI 训练加速器的标配。厂商竞争激烈,推动 NVMe、QDR 等技术迭代。LMSYS Org 等组织积极参与,助力开源基准生态。

完整结果详见 官方页面