MLCommons®近日宣布发布了其行业标准MLPerf® Inference v6.0基准测试套件的最新结果。此次更新引入多项重大进步,确保基准测试覆盖当前AI部署的真实场景,并全面展示AI系统性能。
在MLPerf Inference v6.0的11个数据中心测试中,有五个为新增或更新,同时边缘系统新增物体检测测试。主要变化包括:
- 基于GPT-OSS 120B的全新开源大语言模型基准,支持数学、科学推理和编码任务;
- 扩展的DeepSeek-R1高级推理基准,新增支持推测解码的交互场景;
- DLRMv3,推荐系统基准第三代,首次引入顺序推荐测试,由Meta贡献大量工程支持;
- 套件首个文本到视频生成基准;
- 全新视觉语言模型(VLM)基准,将Shopify产品目录的多模态数据转化为结构化元数据;
- 基于Ultralytics YOLOv11 Large模型的边缘单次物体检测基准升级。
“这是我们对Inference基准套件最重大的一次修订,”Dell Technologies系统开发工程技术人员、MLPerf Inference工作组联合主席Frank Han表示。“成员们的热情协作和工程贡献前所未有,推动我们更新多项基准,以跟上AI模型和技术的快速发展,确保测试的相关性和代表性。”
开源的MLPerf Inference基准套件以架构中立、代表性和可重复方式衡量系统性能,旨在为行业竞争提供公平平台,促进创新、性能和能效提升。公布结果为采购和调优AI系统的客户提供关键技术信息。
“感谢Meta、Shopify和Ultralytics的深度合作,提供数据集、任务定义和专业知识,”AMD高级技术人员、MLPerf Inference工作组联合主席Miro Hodak说。“这些伙伴关系确保测试反映行业最新状态。”
“MLPerf Inference基准在AI行业推动透明与问责,”Ultralytics CEO兼创始人Glenn Jocher表示。“我们以此验证YOLO模型的真实性能,帮助开发者做出明智决策。”
提交者和用户的新工具
Inference 6.0引入新Harness LoadGen++,允许LLM使用当前典型的serving-style软件栈运行。“LoadGen++是前代重大升级,帮助我们敏捷跟踪最先进技术,”Han补充。
此外,结果可在MLCommons网站的新在线仪表板查看,支持高级过滤和自定义性能图表:https://mlcommons.org/visualizer。
大规模多节点系统备受关注
Inference 6.0提交显示,技术提供商热衷展示多节点系统在真实推理负载下的性能。多节点提交量较半年前的Inference 5.1增加30%,10%的系统超过10节点(上轮仅2%),最大系统达72节点288加速器,节点数是上轮最大系统的四倍。
“随着AI应用进入生产,大规模高性能系统需求激增,”Hodak说。“多节点系统带来独特挑战,包括架构、网络、存储和软件优化,利益相关者积极应对大规模推理。”
AI社区持续拥抱MLPerf Inference
本次基准收到24家组织提交:AMD、ASUSTeK、Cisco、CoreWeave、Dell、GATEOverflow、GigaComputing、Google、Hewlett Packard Enterprise、Intel、Inventec Corporation、KRAI、Lambda、Lenovo、MangoBoost、MiTAC、Nebius、Netweb Technologies India Limited、NVIDIA、Oracle、Quanta Cloud Technology、Red Hat、Stevens Institute of Technology和Supermicro。
“欢迎首次提交者Inventec Corporation、Netweb Technologies India Limited和Stevens Institute of Technology,”Han说。“感谢成员、贡献者和伙伴如Meta、Shopify、Ultralytics,一起打造最全面的AI推理性能基准,帮助社区做出更好决策。”
查看结果
访问MLPerf Inference v6.0结果仪表板查看详情。
关于MLCommons
MLCommons是全球AI基准领导者,由130多家成员支持的开源工程联盟,汇聚学术、产业和民間社会,推动AI测量与改进。自2018年MLPerf基准启动,已成为机器学习性能行业标准,促进透明、安全、速度和效率提升。更多信息访问MLCommons.org或邮件咨询。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接