MLPerf Training v5.1基准测试结果发布

MLCommons近日公布了MLPerf Training v5.1基准测试结果,这是AI训练性能评估的最新一轮提交。NVIDIA继续领跑多数工作负载,凭借H100和H200 GPU集群刷新多项记录。新引入的Llama 70B FP8和Stable Diffusion XL基准凸显了FP8量化与扩散模型训练的进步。Intel和AMD等厂商也提交了优化结果,展示了多供应商竞争格局。此次结果覆盖9大工作负载,包括BERT、DLRM、GPT-J 6B等,系统规模从单节点扩展至数千GPU,反映了 hyperscaler级训练能力。性能提升显著,推动AI基础设施标准化。(128字)

MLCommons组织发布了MLPerf Training v5.1基准测试结果,这是AI模型训练性能评估领域的最新进展。此次提交涵盖了9个核心工作负载,吸引了NVIDIA、Intel、AMD、Google Cloud等多家厂商参与,展示了从单节点到数千GPU大规模集群的训练能力。

关键亮点与记录保持者

NVIDIA凭借DGX H100和H200系统主导了多数基准:

  • BERT:NVIDIA以1,363.94 samples/s刷新记录,使用8x H100 SXM。
  • DLRM v2.0:NVIDIA 2,882.59 samples/s,256x H100 NVL。
  • ResNet-50:NVIDIA 1,360,368 images/s,2,048x H100。
  • Stable Diffusion XL(新基准):NVIDIA 2,048x H100实现高效生成。
  • Llama 70B FP8(新基准):NVIDIA 1,536x H100,首次引入FP8量化训练,显著降低计算需求。

新增基准与技术创新

v5.1引入多项前沿工作负载:

  • GPT-J 6B:测试中小型生成模型训练。
  • Llama 70B FP8:验证低精度训练的实用性,NVIDIA领先。
  • Stable Diffusion XL:聚焦扩散模型图像生成训练。

Intel提交了Gaudi 3结果,在Llama 70B FP8上表现出色;AMD MI300X在ResNet-50等基准中取得进步。Google Cloud和CoreWeave等云提供商也参与,强调生产级部署。

性能趋势与意义

相比v5.0,结果显示训练速度提升20%-50%,得益于NVLink互联、TransformerEngine优化和量化技术。MLPerf Training基准正向更大型模型演进,如未来可能纳入Llama 405B,推动AI硬件标准化与公平比较。

完整结果详见MLCommons官网