MLCommons 小型LLM推理基准5.1发布

2026年02月10日 16 约3分钟 MLC

MLC MLCommons 小型LLM 推理基准 MLPerf 性能排行

MLCommons组织发布了Small LLM Inference 5.1基准，这是MLPerf Inference系列中专注于小型语言模型（1-3B参数）的最新版本。该基准旨在评估SLM在真实推理场景下的性能，包括聊天机器人、文本生成等任务，帮助开发者选择高效硬件和优化框架。

基准概述与更新

Small LLM Inference基准模拟Chatbot Arena风格的交互，支持多种SLM如TinyLlama、Gemma 2 2B、Llama 3.2 1B和Phi-3.5-mini-instruct。新版本5.1的主要更新包括：

测试遵循MLPerf规则，分closed（闭源优化）和open（开源）轨道，确保公平比较。

在数据中心场景下，closed轨道90th percentile响应时间和系统吞吐量是核心指标。

SGLang框架在解码效率上领先，结合FlashAttention-2，实现1.5x加速。vLLM在高并发下表现稳定。

硬件	模型	吞吐量 (qps)	延迟 (ms, p90)
H200 SXM	Llama 3.2 1B	1250	180
MI300X	Phi-3.5-mini	1100	210

边缘设备中，NVIDIA Jetson AGX Orin以实时响应见长，适合移动AI应用。