MLPerf Training v5.0基准测试结果发布

MLCommons组织正式发布了MLPerf Training v5.0基准测试结果,这是AI模型训练性能评估领域的最新里程碑。该基准测试聚焦于大规模AI训练任务的性能、效率和可扩展性,帮助研究者和企业评估硬件平台的真实能力。

测试任务与更新亮点

v5.0版本引入了多项新任务和优化,覆盖从计算机视觉到大语言模型的全谱系:

  • BERT:自然语言处理基础任务。
  • ResNet-50:图像分类基准。
  • T5:文本到文本转换。
  • GPT-3 175B:大规模生成式语言模型训练。
  • 新增Llama 3.1 405BStable Diffusion XL,反映当前热门开源模型。

测试强调了时间到首次准确率(Time to First Accuracy)和最高准确率(Highest Accuracy)等指标,确保结果的公平性和可比性。

封闭分区(Closed Division)记录

封闭分区要求严格遵守基准规则,NVIDIA主导多项纪录:

  • DGX H100系统在GPT-3 175B任务中达到最佳性能,训练时间缩短至历史最低。
  • H200 GPU在Llama 3.1 405B上表现出色,展示了HBM3e内存的优势。
  • Google Cloud TPU v5p在T5任务中提交高效结果。

具体数据可在官方结果页面查看。

开放分区(Open Division)创新

开放分区允许软件优化,AMD MI300X和Intel Gaudi3等平台崭露头角:

  • AMD在ResNet-50上接近NVIDIA纪录。
  • Graphcore IPU展示了在BERT任务的独特优势。

性能趋势与洞察

相比v4.0,v5.0结果显示训练效率提升30%以上,归功于NVLink互联和FlashAttention等技术。厂商提交超过50个系统,涵盖云端到边缘部署。该基准强化了AI硬件竞赛,推动从H100到Blackwell架构的迭代。

MLPerf Training v5.0结果为AI从业者提供了宝贵参考,助力优化训练管道和硬件选型。更多细节敬请关注MLCommons官网。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!