MLPerf Training v5.0基准测试结果发布

MLCommons近日公布了MLPerf Training v5.0基准测试结果,这是AI训练性能的标准权威评估。此次结果涵盖了多项关键任务,包括BERT、ResNet-50、GPT-3 175B和新增的Llama 3.1 405B等,NVIDIA、Google和AMD等厂商提交了多项记录。NVIDIA H100和H200系统在多个任务中刷新纪录,展示了DGX H100等平台的强劲性能。结果强调了高效训练的重要性,推动AI硬件创新。详细数据见官网,助力行业选择最佳训练解决方案。(128字)

MLCommons组织正式发布了MLPerf Training v5.0基准测试结果,这是AI模型训练性能评估领域的最新里程碑。该基准测试聚焦于大规模AI训练任务的性能、效率和可扩展性,帮助研究者和企业评估硬件平台的真实能力。

测试任务与更新亮点

v5.0版本引入了多项新任务和优化,覆盖从计算机视觉到大语言模型的全谱系:

  • BERT:自然语言处理基础任务。
  • ResNet-50:图像分类基准。
  • T5:文本到文本转换。
  • GPT-3 175B:大规模生成式语言模型训练。
  • 新增Llama 3.1 405BStable Diffusion XL,反映当前热门开源模型。

测试强调了时间到首次准确率(Time to First Accuracy)和最高准确率(Highest Accuracy)等指标,确保结果的公平性和可比性。

封闭分区(Closed Division)记录

封闭分区要求严格遵守基准规则,NVIDIA主导多项纪录:

  • DGX H100系统在GPT-3 175B任务中达到最佳性能,训练时间缩短至历史最低。
  • H200 GPU在Llama 3.1 405B上表现出色,展示了HBM3e内存的优势。
  • Google Cloud TPU v5p在T5任务中提交高效结果。

具体数据可在官方结果页面查看。

开放分区(Open Division)创新

开放分区允许软件优化,AMD MI300X和Intel Gaudi3等平台崭露头角:

  • AMD在ResNet-50上接近NVIDIA纪录。
  • Graphcore IPU展示了在BERT任务的独特优势。

性能趋势与洞察

相比v4.0,v5.0结果显示训练效率提升30%以上,归功于NVLink互联和FlashAttention等技术。厂商提交超过50个系统,涵盖云端到边缘部署。该基准强化了AI硬件竞赛,推动从H100到Blackwell架构的迭代。

MLPerf Training v5.0结果为AI从业者提供了宝贵参考,助力优化训练管道和硬件选型。更多细节敬请关注MLCommons官网。