MLPerf Inference v5.1 基准测试结果发布

MLCommons 组织宣布 MLPerf Inference v5.1 基准测试结果正式发布,这是继 v5.0 后的最新迭代,聚焦生成式 AI 模型的推理性能评估。由 LMSYS Org 等贡献者推动,本轮测试扩展了基准范围,引入更具挑战性的工作负载,帮助行业衡量系统在真实场景下的表现。

新增基准模型与场景

本次测试新增多项基准,强调大型语言模型(LLM)的推理能力:

  • Llama 3.1 405B:数据中心场景下的 Offline、Server 和 Single Stream 测试,输入序列长度达 2048 tokens,输出 128 tokens。
  • Llama 3.2 1B / 3B:边缘设备(Edge)场景,支持图像-文本多模态任务。
  • 保留经典基准如 BERT、ResNet-50、Stable Diffusion 等,确保全面覆盖计算机视觉、NLP 和生成任务。

测试规则严格,包括性能计数器验证和功率测量标准化,提交系统需公开硬件配置。

性能亮点与记录保持者

数据中心类别中,NVIDIA 主导多项记录:

  • H100 SXM 在 Llama 3.1 405B Offline 场景达到最高系统吞吐量(system throughput)。
  • H200 NVL 在 Server 和 Single Stream 中表现出色,低延迟优化显著。

AMD MI300X 在 Llama 405B Server 场景打破记录,Intel Gaudi3 在中小模型上竞争力增强。边缘设备方面,Qualcomm 和 MediaTek 提交的 SoC 在 Llama 3.2 上实现高效推理。

关键数据与趋势

基准记录系统性能指标
Llama 3.1 405B OfflineNVIDIA H100 (8x)最高吞吐量 [samples/s]
Llama 3.1 405B ServerAMD MI300X最低 TTFT + 最高 QPS
Llama 3.2 3B EdgeQualcomm SnapdragonOffline 性能 [samples/s]

相比 v5.0,结果显示推理性能提升 20-50%,得益于 FP8 量化、FlashAttention 等优化技术。厂商还探索了 SGLang 和 vLLM 等运行时框架。

行业意义

MLPerf Inference v5.1 结果凸显 AI 硬件竞争白热化,推动从训练向推理范式的转变。未来测试将进一步集成更多开源模型,如 DeepSeek 和 Qwen,促进公平比较。开发者可通过 官方链接 下载完整数据集和提交指南。

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!