MLCommons 小型LLM推理基准5.1发布

MLCommons近日发布了Small LLM Inference基准5.1版本,这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交,涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SLM。基准测试包括预填充和解码阶段的端到端延迟、吞吐量等指标,在A100、H100等GPU及边缘设备上运行。结果显示,NVIDIA H200在closed轨道中领先,吞吐量提升显著;AMD MI300X紧随其后。开源轨道中,SGLang框架优化突出。该基准推动SLM在边缘部署和高效推理的应用落地。(128字)

MLCommons组织发布了Small LLM Inference 5.1基准,这是MLPerf Inference系列中专注于小型语言模型(1-3B参数)的最新版本。该基准旨在评估SLM在真实推理场景下的性能,包括聊天机器人、文本生成等任务,帮助开发者选择高效硬件和优化框架。

基准概述与更新

Small LLM Inference基准模拟Chatbot Arena风格的交互,支持多种SLM如TinyLlama、Gemma 2 2B、Llama 3.2 1B和Phi-3.5-mini-instruct。新版本5.1的主要更新包括:

  • 新增Llama 3.2 1B模型,支持视觉语言任务扩展。
  • 优化测试场景:预填充(Prefill)和解码(Decode)阶段分开评估,总tokens达2048。
  • 引入SGLang和vLLM等推理引擎,支持动态批处理。
  • 硬件范围扩展至数据中心GPU(如H100、H200)、边缘设备(如Jetson Orin)和CPU。

测试遵循MLPerf规则,分closed(闭源优化)和open(开源)轨道,确保公平比较。

关键性能结果

在数据中心场景下,closed轨道90th percentile响应时间和系统吞吐量是核心指标。

Closed轨道领先者

  • NVIDIA H200:Llama 3.2 1B模型,最高吞吐量达1200+ queries/s,较上一代提升25%。
  • AMD Instinct MI300X:紧随其后,性价比突出。
  • Intel Gaudi3:首次提交,展现竞争力。

Open轨道亮点

SGLang框架在解码效率上领先,结合FlashAttention-2,实现1.5x加速。vLLM在高并发下表现稳定。

硬件模型吞吐量 (qps)延迟 (ms, p90)
H200 SXMLlama 3.2 1B1250180
MI300XPhi-3.5-mini1100210

边缘设备中,NVIDIA Jetson AGX Orin以实时响应见长,适合移动AI应用。

排行榜与分析

完整排行榜见官方页面。此次结果凸显量化(INT4/FP8)和连续批处理的重要性,推动SLM从云端向边缘迁移。未来,基准将支持更多多模态SLM。

该发布为AI硬件选型提供宝贵参考,助力高效SLM部署。