MLPerf Training v5.1基准测试结果发布

MLCommons组织发布了MLPerf Training v5.1基准测试结果,这是AI模型训练性能评估领域的最新进展。此次提交涵盖了9个核心工作负载,吸引了NVIDIA、Intel、AMD、Google Cloud等多家厂商参与,展示了从单节点到数千GPU大规模集群的训练能力。

关键亮点与记录保持者

NVIDIA凭借DGX H100和H200系统主导了多数基准:

  • BERT:NVIDIA以1,363.94 samples/s刷新记录,使用8x H100 SXM。
  • DLRM v2.0:NVIDIA 2,882.59 samples/s,256x H100 NVL。
  • ResNet-50:NVIDIA 1,360,368 images/s,2,048x H100。
  • Stable Diffusion XL(新基准):NVIDIA 2,048x H100实现高效生成。
  • Llama 70B FP8(新基准):NVIDIA 1,536x H100,首次引入FP8量化训练,显著降低计算需求。

新增基准与技术创新

v5.1引入多项前沿工作负载:

  • GPT-J 6B:测试中小型生成模型训练。
  • Llama 70B FP8:验证低精度训练的实用性,NVIDIA领先。
  • Stable Diffusion XL:聚焦扩散模型图像生成训练。

Intel提交了Gaudi 3结果,在Llama 70B FP8上表现出色;AMD MI300X在ResNet-50等基准中取得进步。Google Cloud和CoreWeave等云提供商也参与,强调生产级部署。

性能趋势与意义

相比v5.0,结果显示训练速度提升20%-50%,得益于NVLink互联、TransformerEngine优化和量化技术。MLPerf Training基准正向更大型模型演进,如未来可能纳入Llama 405B,推动AI硬件标准化与公平比较。

完整结果详见MLCommons官网

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!