MLPerf Training v5.1基准测试结果发布

MLCommons组织发布了MLPerf Training v5.1基准测试结果,这是AI模型训练性能评估领域的最新进展。此次提交涵盖了9个核心工作负载,吸引了NVIDIA、Intel、AMD、Google Cloud等多家厂商参与,展示了从单节点到数千GPU大规模集群的训练能力。

关键亮点与记录保持者

NVIDIA凭借DGX H100和H200系统主导了多数基准:

  • BERT:NVIDIA以1,363.94 samples/s刷新记录,使用8x H100 SXM。
  • DLRM v2.0:NVIDIA 2,882.59 samples/s,256x H100 NVL。
  • ResNet-50:NVIDIA 1,360,368 images/s,2,048x H100。
  • Stable Diffusion XL(新基准):NVIDIA 2,048x H100实现高效生成。
  • Llama 70B FP8(新基准):NVIDIA 1,536x H100,首次引入FP8量化训练,显著降低计算需求。

新增基准与技术创新

v5.1引入多项前沿工作负载:

  • GPT-J 6B:测试中小型生成模型训练。
  • Llama 70B FP8:验证低精度训练的实用性,NVIDIA领先。
  • Stable Diffusion XL:聚焦扩散模型图像生成训练。

Intel提交了Gaudi 3结果,在Llama 70B FP8上表现出色;AMD MI300X在ResNet-50等基准中取得进步。Google Cloud和CoreWeave等云提供商也参与,强调生产级部署。

性能趋势与意义

相比v5.0,结果显示训练速度提升20%-50%,得益于NVLink互联、TransformerEngine优化和量化技术。MLPerf Training基准正向更大型模型演进,如未来可能纳入Llama 405B,推动AI硬件标准化与公平比较。

完整结果详见MLCommons官网

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!