MLPerf Storage v2.0 基准测试结果发布

2026年02月10日 12 约3分钟 MLC

MLC MLPerf 存储基准 AI性能 NVIDIA 硬件测试

MLPerf Storage v2.0 概述

MLPerf Storage 是由 MLCommons 组织开发的标准化基准测试套件，专为评估 AI 工作负载下的存储系统性能而设计。v2.0 版本于 2025 年 8 月发布，引入了多项升级，包括更大的数据集规模（如 1TB+ 的训练数据）和更贴近真实场景的 AI 任务：GPT-3 风格模型的预训练、微调，以及 Stable Diffusion 等生成式 AI 推理。

本次测试聚焦关键指标：读吞吐量、写吞吐量、读延迟 和 写延迟，模拟多节点 GPU 集群环境下的高并发 I/O 操作。

测试结果亮点

顶级性能：NVIDIA DGX SuperPOD 搭配 DDN EXAScaler 存储系统，在 256 GPU 训练任务中，实现读吞吐量高达 45 TB/s，写吞吐量 32 TB/s，领先其他提交。
推理优化：Pure Storage FlashArray 在 Stable Diffusion 推理基准中，延迟低至 50μs，吞吐量超 20 TB/s，适合实时生成应用。
网络创新：多家系统采用 NVMe-oF over RoCEv2 或 InfiniBand，实现端到端低延迟。

详细结果分析

MLCommons 发布了 20 多个提交结果，覆盖从单机到超级计算集群的多种配置。

训练基准

NVIDIA + DDN：读 45 TB/s，完成时间缩短 25% 对比 v1.0。
NetApp + NVIDIA：平衡性最佳，性价比突出。
HPE + VAST Data：在大规模扩展中表现出色，支持 1024 GPU。

推理基准

Pure Storage：延迟优化 40%，适用于 Llama 模型推理。
IBM Storage Scale：高密度部署优势明显。

所有结果均经过严格审计，确保可重复性和公平性。图表显示，随着节点数增加，线性扩展性成为关键挑战。

行业意义

MLPerf Storage v2.0 结果凸显存储在 AI 基础设施中的瓶颈已成过去，高性能存储正成为 AI 训练加速器的标配。厂商竞争激烈，推动 NVMe、QDR 等技术迭代。LMSYS Org 等组织积极参与，助力开源基准生态。

完整结果详见官方页面。