MLCommons组织发布了MLPerf Training v5.1基准测试结果,这是AI模型训练性能评估领域的最新进展。此次提交涵盖了9个核心工作负载,吸引了NVIDIA、Intel、AMD、Google Cloud等多家厂商参与,展示了从单节点到数千GPU大规模集群的训练能力。
关键亮点与记录保持者
NVIDIA凭借DGX H100和H200系统主导了多数基准:
- BERT:NVIDIA以1,363.94 samples/s刷新记录,使用8x H100 SXM。
- DLRM v2.0:NVIDIA 2,882.59 samples/s,256x H100 NVL。
- ResNet-50:NVIDIA 1,360,368 images/s,2,048x H100。
- Stable Diffusion XL(新基准):NVIDIA 2,048x H100实现高效生成。
- Llama 70B FP8(新基准):NVIDIA 1,536x H100,首次引入FP8量化训练,显著降低计算需求。
新增基准与技术创新
v5.1引入多项前沿工作负载:
- GPT-J 6B:测试中小型生成模型训练。
- Llama 70B FP8:验证低精度训练的实用性,NVIDIA领先。
- Stable Diffusion XL:聚焦扩散模型图像生成训练。
Intel提交了Gaudi 3结果,在Llama 70B FP8上表现出色;AMD MI300X在ResNet-50等基准中取得进步。Google Cloud和CoreWeave等云提供商也参与,强调生产级部署。
性能趋势与意义
相比v5.0,结果显示训练速度提升20%-50%,得益于NVLink互联、TransformerEngine优化和量化技术。MLPerf Training基准正向更大型模型演进,如未来可能纳入Llama 405B,推动AI硬件标准化与公平比较。
完整结果详见MLCommons官网。