MLCommons组织发布了MLPerf Client v1.0基准测试的首次结果,这是首个专为客户端和边缘设备设计的AI推理性能基准,旨在评估移动设备上的生成式AI和传统AI任务表现。
基准测试概述
MLPerf Client v1.0聚焦移动和边缘计算场景,引入六项关键任务:
- Image Super-Resolution:使用Real-ESRGAN x4模型处理DIV2K验证集。
- Image Classification:MobileNet V3在ImageNet数据集上。
- Object Detection:YOLOv5在COCO val2017数据集上。
- Speech-to-Text:Conformer模型在LibriSpeech数据集上。
- Chatbot:首次引入Llama 3.1 8B Instruct模型,支持ShareGPT-4o数据集的对话生成。
- Image Generation:Stable Diffusion XL Turbo生成MS COCO 2014提示图像。
测试场景覆盖Offline(批量处理)、Server(实时请求)、SingleStream(单流)和MultipleStream(多流),质量目标阈值确保结果可比性。
参与者和结果亮点
本次提交来自Arm、Intel、MediaTek、Qualcomm、Samsung和Tenstorrent等厂商。关键发现包括:
- Qualcomm的Snapdragon平台在多个任务中领先,如Chatbot SingleStream场景达到高吞吐量。
- Arm Total Design在Chatbot任务表现出色,实现高效的Llama 3.1 8B推理。
- MediaTek和Samsung在图像生成和语音任务中提交强劲结果。
- 首次Chatbot结果强调了量化技术(如INT4)和优化框架的重要性。
完整结果表格详见官方页面,包括性能指标如Samples/s和Latency。
意义与展望
MLPerf Client v1.0填补了客户端AI基准空白,推动SoC厂商优化生成式AI在手机、平板等设备上的部署。未来版本将扩展更多模型和场景,促进AI边缘计算标准化。