MLPerf Inference v5.1 基准测试结果发布

Feb 10, 2026 704 Views - Read Source MLC

MLC MLPerf 推理基准 Llama 3.1 AI性能数据中心

MLCommons 组织宣布 MLPerf Inference v5.1 基准测试结果正式发布，这是继 v5.0 后的最新迭代，聚焦生成式 AI 模型的推理性能评估。由 LMSYS Org 等贡献者推动，本轮测试扩展了基准范围，引入更具挑战性的工作负载，帮助行业衡量系统在真实场景下的表现。

新增基准模型与场景

本次测试新增多项基准，强调大型语言模型（LLM）的推理能力：

Llama 3.1 405B：数据中心场景下的 Offline、Server 和 Single Stream 测试，输入序列长度达 2048 tokens，输出 128 tokens。
Llama 3.2 1B / 3B：边缘设备（Edge）场景，支持图像-文本多模态任务。
保留经典基准如 BERT、ResNet-50、Stable Diffusion 等，确保全面覆盖计算机视觉、NLP 和生成任务。

测试规则严格，包括性能计数器验证和功率测量标准化，提交系统需公开硬件配置。

数据中心类别中，NVIDIA 主导多项记录：

AMD MI300X 在 Llama 405B Server 场景打破记录，Intel Gaudi3 在中小模型上竞争力增强。边缘设备方面，Qualcomm 和 MediaTek 提交的 SoC 在 Llama 3.2 上实现高效推理。

相比 v5.0，结果显示推理性能提升 20-50%，得益于 FP8 量化、FlashAttention 等优化技术。厂商还探索了 SGLang 和 vLLM 等运行时框架。

MLPerf Inference v5.1 结果凸显 AI 硬件竞争白热化，推动从训练向推理范式的转变。未来测试将进一步集成更多开源模型，如 DeepSeek 和 Qwen，促进公平比较。开发者可通过官方链接下载完整数据集和提交指南。