MLCommons组织正式发布了MLPerf Training v5.0基准测试结果,这是AI模型训练性能评估领域的最新里程碑。该基准测试聚焦于大规模AI训练任务的性能、效率和可扩展性,帮助研究者和企业评估硬件平台的真实能力。
测试任务与更新亮点
v5.0版本引入了多项新任务和优化,覆盖从计算机视觉到大语言模型的全谱系:
- BERT:自然语言处理基础任务。
- ResNet-50:图像分类基准。
- T5:文本到文本转换。
- GPT-3 175B:大规模生成式语言模型训练。
- 新增Llama 3.1 405B和Stable Diffusion XL,反映当前热门开源模型。
测试强调了时间到首次准确率(Time to First Accuracy)和最高准确率(Highest Accuracy)等指标,确保结果的公平性和可比性。
封闭分区(Closed Division)记录
封闭分区要求严格遵守基准规则,NVIDIA主导多项纪录:
- DGX H100系统在GPT-3 175B任务中达到最佳性能,训练时间缩短至历史最低。
- H200 GPU在Llama 3.1 405B上表现出色,展示了HBM3e内存的优势。
- Google Cloud TPU v5p在T5任务中提交高效结果。
具体数据可在官方结果页面查看。
开放分区(Open Division)创新
开放分区允许软件优化,AMD MI300X和Intel Gaudi3等平台崭露头角:
- AMD在ResNet-50上接近NVIDIA纪录。
- Graphcore IPU展示了在BERT任务的独特优势。
性能趋势与洞察
相比v4.0,v5.0结果显示训练效率提升30%以上,归功于NVLink互联和FlashAttention等技术。厂商提交超过50个系统,涵盖云端到边缘部署。该基准强化了AI硬件竞赛,推动从H100到Blackwell架构的迭代。
MLPerf Training v5.0结果为AI从业者提供了宝贵参考,助力优化训练管道和硬件选型。更多细节敬请关注MLCommons官网。