MLPerf Training v5.0:Llama 3.1 405B训练基准创纪录

MLCommons发布了MLPerf Training v5.0基准结果,首次引入Llama 3.1 405B作为大型语言模型训练任务。该基准测试了多家厂商的超级计算系统在训练405B参数模型时的性能。NVIDIA的DGX SuperPOD系统以最快时间完成训练,展示了H100 GPU集群的强大能力。测试采用SGLang框架和8位量化优化,训练至90%准确率仅需数小时。结果突显AI训练效率提升,推动开源大模型标准化。该基准为行业提供了宝贵参考,促进硬件与软件协同优化。(128字)

引言

MLCommons近日公布了MLPerf Training v5.0基准测试结果,这是AI训练领域的重要里程碑。此次基准首次纳入了Meta的Llama 3.1 405B模型,作为大规模语言模型训练任务。该模型拥有4050亿参数,是目前开源领域最大的模型之一,训练难度极高。

基准测试概述

MLPerf Training基准旨在标准化评估AI训练系统的性能。v5.0版本引入了Llama 3.1 405B任务,要求系统训练模型至预训练损失达到特定阈值(相当于90%准确率)。测试环境包括:

  • 数据集:约15万亿token的混合语料。
  • 优化技术:8位量化、SGLang框架加速推理与生成。
  • 硬件平台:多达数千GPU的集群,如NVIDIA H100 SuperPOD。

性能结果亮点

多家厂商提交结果,NVIDIA主导了领先位置:

  • 最快记录:NVIDIA DGX SuperPOD(576个H100 GPU)训练时间仅为316.6分钟(约5.3小时)。
  • 第二名:另一NVIDIA系统(1152个H100)耗时约200分钟
  • 相比v4.0的Llama 2 70B基准,405B任务规模提升数十倍,性能差距显著。

图表显示,GPU数量越多,训练时间越短,但边际收益递减。SGLang的零冗余优化器(ZeRO)在多机环境中表现出色。

技术细节与创新

测试严格控制变量:

  • SGLang用于高效生成与评估。
  • FlashAttention-2加速注意力计算。
  • 支持自定义数据集过滤,确保公平性。

结果显示,软件栈优化(如NVIDIA TensorRT-LLM)对性能贡献巨大,较基线提升2-3倍。

行业意义

Llama 3.1 405B基准的引入标志着MLPerf向更真实AI工作负载演进。它不仅验证了H100等新一代GPU的能力,还为Llama系列未来迭代(如Llama 4)奠定基础。开源社区受益于标准化结果,推动全球AI基础设施竞争。

完整结果详见MLCommons官网