MLPerf Client v0.6基准测试结果发布

MLCommons组织于近日发布了MLPerf Client v0.6基准测试结果,这是首个专注于客户端推理性能的标准化基准套件,针对智能手机、笔记本电脑和边缘设备等场景。

新版本亮点

MLPerf Client v0.6扩展了工作负载,支持更多前沿AI模型,包括经典任务和新晋大模型:

  • 图像分类:ResNet-50
  • 目标检测:RetinaNet
  • 语音转文本:RNN-T
  • 医疗图像分割:3D-Unet
  • 推荐系统:DLRM v2
  • 自然语言处理:BERT
  • 大语言模型:Llama 2 70B
  • 生成式AI:Stable Diffusion

测试场景包括Offline、Server、SingleStream,以及新增的MultiStream(2、4、8流),精度要求为INT8量化或FP16。

提交结果概览

多家厂商积极参与,包括Arm、Intel、MediaTek、NVIDIA、Qualcomm和Samsung。以下是部分顶级性能亮点:

Llama 2 70B(离线场景)

  • NVIDIA(H100 TensorRT-LLM):领先样本/秒吞吐量
  • Qualcomm(Snapdragon 8 Gen 3):移动平台最佳

Stable Diffusion(单流)

  • NVIDIA主导生成速度
  • MediaTek(Dimensity 9300):高效移动端表现

BERT(服务器场景)

平台性能(样本/秒)
NVIDIA A100最高
Intel Xeon强劲

详细结果可在官方页面查看。LMSYS Org等组织贡献了基准框架优化。

意义与展望

此次基准揭示了客户端AI硬件的快速发展,尤其在量化大模型上的突破。未来版本预计将纳入更多多模态任务,推动AI从云端向边缘迁移。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!