MLCommons发布MLPerf Inference v6.0基准测试最新结果

2026年04月02日 812 阅读 - 阅读来源: MLC

MLC MLPerf Inference AI基准测试大语言模型多节点系统推理性能

MLCommons®近日宣布发布了其行业标准MLPerf® Inference v6.0基准测试套件的最新结果。此次更新引入多项重大进步，确保基准测试覆盖当前AI部署的真实场景，并全面展示AI系统性能。

在MLPerf Inference v6.0的11个数据中心测试中，有五个为新增或更新，同时边缘系统新增物体检测测试。主要变化包括：

基于GPT-OSS 120B的全新开源大语言模型基准，支持数学、科学推理和编码任务；
扩展的DeepSeek-R1高级推理基准，新增支持推测解码的交互场景；
DLRMv3，推荐系统基准第三代，首次引入顺序推荐测试，由Meta贡献大量工程支持；
套件首个文本到视频生成基准；
全新视觉语言模型（VLM）基准，将Shopify产品目录的多模态数据转化为结构化元数据；
基于Ultralytics YOLOv11 Large模型的边缘单次物体检测基准升级。

“这是我们对Inference基准套件最重大的一次修订，”Dell Technologies系统开发工程技术人员、MLPerf Inference工作组联合主席Frank Han表示。“成员们的热情协作和工程贡献前所未有，推动我们更新多项基准，以跟上AI模型和技术的快速发展，确保测试的相关性和代表性。”

开源的MLPerf Inference基准套件以架构中立、代表性和可重复方式衡量系统性能，旨在为行业竞争提供公平平台，促进创新、性能和能效提升。公布结果为采购和调优AI系统的客户提供关键技术信息。

“感谢Meta、Shopify和Ultralytics的深度合作，提供数据集、任务定义和专业知识，”AMD高级技术人员、MLPerf Inference工作组联合主席Miro Hodak说。“这些伙伴关系确保测试反映行业最新状态。”

“MLPerf Inference基准在AI行业推动透明与问责，”Ultralytics CEO兼创始人Glenn Jocher表示。“我们以此验证YOLO模型的真实性能，帮助开发者做出明智决策。”

提交者和用户的新工具

Inference 6.0引入新Harness LoadGen++，允许LLM使用当前典型的serving-style软件栈运行。“LoadGen++是前代重大升级，帮助我们敏捷跟踪最先进技术，”Han补充。

此外，结果可在MLCommons网站的新在线仪表板查看，支持高级过滤和自定义性能图表：https://mlcommons.org/visualizer。

大规模多节点系统备受关注

Inference 6.0提交显示，技术提供商热衷展示多节点系统在真实推理负载下的性能。多节点提交量较半年前的Inference 5.1增加30%，10%的系统超过10节点（上轮仅2%），最大系统达72节点288加速器，节点数是上轮最大系统的四倍。

“随着AI应用进入生产，大规模高性能系统需求激增，”Hodak说。“多节点系统带来独特挑战，包括架构、网络、存储和软件优化，利益相关者积极应对大规模推理。”

AI社区持续拥抱MLPerf Inference

本次基准收到24家组织提交：AMD、ASUSTeK、Cisco、CoreWeave、Dell、GATEOverflow、GigaComputing、Google、Hewlett Packard Enterprise、Intel、Inventec Corporation、KRAI、Lambda、Lenovo、MangoBoost、MiTAC、Nebius、Netweb Technologies India Limited、NVIDIA、Oracle、Quanta Cloud Technology、Red Hat、Stevens Institute of Technology和Supermicro。

“欢迎首次提交者Inventec Corporation、Netweb Technologies India Limited和Stevens Institute of Technology，”Han说。“感谢成员、贡献者和伙伴如Meta、Shopify、Ultralytics，一起打造最全面的AI推理性能基准，帮助社区做出更好决策。”

查看结果

访问MLPerf Inference v6.0结果仪表板查看详情。

关于MLCommons

MLCommons是全球AI基准领导者，由130多家成员支持的开源工程联盟，汇聚学术、产业和民間社会，推动AI测量与改进。自2018年MLPerf基准启动，已成为机器学习性能行业标准，促进透明、安全、速度和效率提升。更多信息访问MLCommons.org或邮件咨询。

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！

MLCommons发布MLPerf Inference v6.0基准测试最新结果

提交者和用户的新工具

大规模多节点系统备受关注

AI社区持续拥抱MLPerf Inference

查看结果

关于MLCommons

相关测评

MLC GPT-OSS 20B：MLPerf Training v6.0 的稀疏 MoE 预训练新基准

MLC MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

MLC MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLC DeepSeek-V3：MLPerf Training v6.0的大规模MoE预训练基准