MLCommons 组织宣布 MLPerf Inference v5.1 基准测试结果正式发布,这是继 v5.0 后的最新迭代,聚焦生成式 AI 模型的推理性能评估。由 LMSYS Org 等贡献者推动,本轮测试扩展了基准范围,引入更具挑战性的工作负载,帮助行业衡量系统在真实场景下的表现。
新增基准模型与场景
本次测试新增多项基准,强调大型语言模型(LLM)的推理能力:
- Llama 3.1 405B:数据中心场景下的 Offline、Server 和 Single Stream 测试,输入序列长度达 2048 tokens,输出 128 tokens。
- Llama 3.2 1B / 3B:边缘设备(Edge)场景,支持图像-文本多模态任务。
- 保留经典基准如 BERT、ResNet-50、Stable Diffusion 等,确保全面覆盖计算机视觉、NLP 和生成任务。
测试规则严格,包括性能计数器验证和功率测量标准化,提交系统需公开硬件配置。
性能亮点与记录保持者
数据中心类别中,NVIDIA 主导多项记录:
- H100 SXM 在 Llama 3.1 405B Offline 场景达到最高系统吞吐量(system throughput)。
- H200 NVL 在 Server 和 Single Stream 中表现出色,低延迟优化显著。
AMD MI300X 在 Llama 405B Server 场景打破记录,Intel Gaudi3 在中小模型上竞争力增强。边缘设备方面,Qualcomm 和 MediaTek 提交的 SoC 在 Llama 3.2 上实现高效推理。
关键数据与趋势
| 基准 | 记录系统 | 性能指标 |
|---|---|---|
| Llama 3.1 405B Offline | NVIDIA H100 (8x) | 最高吞吐量 [samples/s] |
| Llama 3.1 405B Server | AMD MI300X | 最低 TTFT + 最高 QPS |
| Llama 3.2 3B Edge | Qualcomm Snapdragon | Offline 性能 [samples/s] |
相比 v5.0,结果显示推理性能提升 20-50%,得益于 FP8 量化、FlashAttention 等优化技术。厂商还探索了 SGLang 和 vLLM 等运行时框架。
行业意义
MLPerf Inference v5.1 结果凸显 AI 硬件竞争白热化,推动从训练向推理范式的转变。未来测试将进一步集成更多开源模型,如 DeepSeek 和 Qwen,促进公平比较。开发者可通过 官方链接 下载完整数据集和提交指南。