MLCommons组织发布了Small LLM Inference 5.1基准,这是MLPerf Inference系列中专注于小型语言模型(1-3B参数)的最新版本。该基准旨在评估SLM在真实推理场景下的性能,包括聊天机器人、文本生成等任务,帮助开发者选择高效硬件和优化框架。
基准概述与更新
Small LLM Inference基准模拟Chatbot Arena风格的交互,支持多种SLM如TinyLlama、Gemma 2 2B、Llama 3.2 1B和Phi-3.5-mini-instruct。新版本5.1的主要更新包括:
- 新增Llama 3.2 1B模型,支持视觉语言任务扩展。
- 优化测试场景:预填充(Prefill)和解码(Decode)阶段分开评估,总tokens达2048。
- 引入SGLang和vLLM等推理引擎,支持动态批处理。
- 硬件范围扩展至数据中心GPU(如H100、H200)、边缘设备(如Jetson Orin)和CPU。
测试遵循MLPerf规则,分closed(闭源优化)和open(开源)轨道,确保公平比较。
关键性能结果
在数据中心场景下,closed轨道90th percentile响应时间和系统吞吐量是核心指标。
Closed轨道领先者
- NVIDIA H200:Llama 3.2 1B模型,最高吞吐量达1200+ queries/s,较上一代提升25%。
- AMD Instinct MI300X:紧随其后,性价比突出。
- Intel Gaudi3:首次提交,展现竞争力。
Open轨道亮点
SGLang框架在解码效率上领先,结合FlashAttention-2,实现1.5x加速。vLLM在高并发下表现稳定。
| 硬件 | 模型 | 吞吐量 (qps) | 延迟 (ms, p90) |
|---|---|---|---|
| H200 SXM | Llama 3.2 1B | 1250 | 180 |
| MI300X | Phi-3.5-mini | 1100 | 210 |
边缘设备中,NVIDIA Jetson AGX Orin以实时响应见长,适合移动AI应用。
排行榜与分析
完整排行榜见官方页面。此次结果凸显量化(INT4/FP8)和连续批处理的重要性,推动SLM从云端向边缘迁移。未来,基准将支持更多多模态SLM。
该发布为AI硬件选型提供宝贵参考,助力高效SLM部署。