MLCommons 小型LLM推理基准5.1发布

MLCommons组织发布了Small LLM Inference 5.1基准,这是MLPerf Inference系列中专注于小型语言模型(1-3B参数)的最新版本。该基准旨在评估SLM在真实推理场景下的性能,包括聊天机器人、文本生成等任务,帮助开发者选择高效硬件和优化框架。

基准概述与更新

Small LLM Inference基准模拟Chatbot Arena风格的交互,支持多种SLM如TinyLlama、Gemma 2 2B、Llama 3.2 1B和Phi-3.5-mini-instruct。新版本5.1的主要更新包括:

  • 新增Llama 3.2 1B模型,支持视觉语言任务扩展。
  • 优化测试场景:预填充(Prefill)和解码(Decode)阶段分开评估,总tokens达2048。
  • 引入SGLang和vLLM等推理引擎,支持动态批处理。
  • 硬件范围扩展至数据中心GPU(如H100、H200)、边缘设备(如Jetson Orin)和CPU。

测试遵循MLPerf规则,分closed(闭源优化)和open(开源)轨道,确保公平比较。

关键性能结果

在数据中心场景下,closed轨道90th percentile响应时间和系统吞吐量是核心指标。

Closed轨道领先者

  • NVIDIA H200:Llama 3.2 1B模型,最高吞吐量达1200+ queries/s,较上一代提升25%。
  • AMD Instinct MI300X:紧随其后,性价比突出。
  • Intel Gaudi3:首次提交,展现竞争力。

Open轨道亮点

SGLang框架在解码效率上领先,结合FlashAttention-2,实现1.5x加速。vLLM在高并发下表现稳定。

硬件模型吞吐量 (qps)延迟 (ms, p90)
H200 SXMLlama 3.2 1B1250180
MI300XPhi-3.5-mini1100210

边缘设备中,NVIDIA Jetson AGX Orin以实时响应见长,适合移动AI应用。

排行榜与分析

完整排行榜见官方页面。此次结果凸显量化(INT4/FP8)和连续批处理的重要性,推动SLM从云端向边缘迁移。未来,基准将支持更多多模态SLM。

该发布为AI硬件选型提供宝贵参考,助力高效SLM部署。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!