MLCommons组织于近日发布了MLPerf Client v0.6基准测试结果,这是首个专注于客户端推理性能的标准化基准套件,针对智能手机、笔记本电脑和边缘设备等场景。
新版本亮点
MLPerf Client v0.6扩展了工作负载,支持更多前沿AI模型,包括经典任务和新晋大模型:
- 图像分类:ResNet-50
- 目标检测:RetinaNet
- 语音转文本:RNN-T
- 医疗图像分割:3D-Unet
- 推荐系统:DLRM v2
- 自然语言处理:BERT
- 大语言模型:Llama 2 70B
- 生成式AI:Stable Diffusion
测试场景包括Offline、Server、SingleStream,以及新增的MultiStream(2、4、8流),精度要求为INT8量化或FP16。
提交结果概览
多家厂商积极参与,包括Arm、Intel、MediaTek、NVIDIA、Qualcomm和Samsung。以下是部分顶级性能亮点:
Llama 2 70B(离线场景)
- NVIDIA(H100 TensorRT-LLM):领先样本/秒吞吐量
- Qualcomm(Snapdragon 8 Gen 3):移动平台最佳
Stable Diffusion(单流)
- NVIDIA主导生成速度
- MediaTek(Dimensity 9300):高效移动端表现
BERT(服务器场景)
| 平台 | 性能(样本/秒) |
|---|---|
| NVIDIA A100 | 最高 |
| Intel Xeon | 强劲 |
详细结果可在官方页面查看。LMSYS Org等组织贡献了基准框架优化。
意义与展望
此次基准揭示了客户端AI硬件的快速发展,尤其在量化大模型上的突破。未来版本预计将纳入更多多模态任务,推动AI从云端向边缘迁移。