MLPerf Training v5.1基准测试结果发布

2026年02月10日 53 阅读 - 阅读来源: MLC

MLC MLPerf 训练基准 AI硬件 NVIDIA Llama FP8

MLCommons组织发布了MLPerf Training v5.1基准测试结果，这是AI模型训练性能评估领域的最新进展。此次提交涵盖了9个核心工作负载，吸引了NVIDIA、Intel、AMD、Google Cloud等多家厂商参与，展示了从单节点到数千GPU大规模集群的训练能力。

关键亮点与记录保持者

NVIDIA凭借DGX H100和H200系统主导了多数基准：

BERT：NVIDIA以1,363.94 samples/s刷新记录，使用8x H100 SXM。
DLRM v2.0：NVIDIA 2,882.59 samples/s，256x H100 NVL。
ResNet-50：NVIDIA 1,360,368 images/s，2,048x H100。
Stable Diffusion XL（新基准）：NVIDIA 2,048x H100实现高效生成。
Llama 70B FP8（新基准）：NVIDIA 1,536x H100，首次引入FP8量化训练，显著降低计算需求。

新增基准与技术创新

v5.1引入多项前沿工作负载：

GPT-J 6B：测试中小型生成模型训练。
Llama 70B FP8：验证低精度训练的实用性，NVIDIA领先。
Stable Diffusion XL：聚焦扩散模型图像生成训练。

Intel提交了Gaudi 3结果，在Llama 70B FP8上表现出色；AMD MI300X在ResNet-50等基准中取得进步。Google Cloud和CoreWeave等云提供商也参与，强调生产级部署。

性能趋势与意义

相比v5.0，结果显示训练速度提升20%-50%，得益于NVLink互联、TransformerEngine优化和量化技术。MLPerf Training基准正向更大型模型演进，如未来可能纳入Llama 405B，推动AI硬件标准化与公平比较。

完整结果详见MLCommons官网。

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！