MLPerf Client v0.6基准测试结果发布

MLCommons近日公布了MLPerf Client v0.6基准测试结果,这是首个针对客户端设备(如手机、笔记本)的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载,涵盖离线、服务器、单流等7种场景。NVIDIA、Qualcomm、MediaTek等厂商提交结果,展示了TensorRT-LLM、Snapdragon等平台的强劲性能。例如,在Llama 2 70B离线场景下,NVIDIA占据领先。结果凸显边缘AI推理的进步,推动移动设备大模型部署。(128字)

MLCommons组织于近日发布了MLPerf Client v0.6基准测试结果,这是首个专注于客户端推理性能的标准化基准套件,针对智能手机、笔记本电脑和边缘设备等场景。

新版本亮点

MLPerf Client v0.6扩展了工作负载,支持更多前沿AI模型,包括经典任务和新晋大模型:

  • 图像分类:ResNet-50
  • 目标检测:RetinaNet
  • 语音转文本:RNN-T
  • 医疗图像分割:3D-Unet
  • 推荐系统:DLRM v2
  • 自然语言处理:BERT
  • 大语言模型:Llama 2 70B
  • 生成式AI:Stable Diffusion

测试场景包括Offline、Server、SingleStream,以及新增的MultiStream(2、4、8流),精度要求为INT8量化或FP16。

提交结果概览

多家厂商积极参与,包括Arm、Intel、MediaTek、NVIDIA、Qualcomm和Samsung。以下是部分顶级性能亮点:

Llama 2 70B(离线场景)

  • NVIDIA(H100 TensorRT-LLM):领先样本/秒吞吐量
  • Qualcomm(Snapdragon 8 Gen 3):移动平台最佳

Stable Diffusion(单流)

  • NVIDIA主导生成速度
  • MediaTek(Dimensity 9300):高效移动端表现

BERT(服务器场景)

平台性能(样本/秒)
NVIDIA A100最高
Intel Xeon强劲

详细结果可在官方页面查看。LMSYS Org等组织贡献了基准框架优化。

意义与展望

此次基准揭示了客户端AI硬件的快速发展,尤其在量化大模型上的突破。未来版本预计将纳入更多多模态任务,推动AI从云端向边缘迁移。