MLPerf Client v1.0发布:首款客户端AI推理基准测试结果

MLCommons近日公布MLPerf Client v1.0基准测试结果,这是首个针对移动和边缘设备的AI推理基准,涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instruct聊天机器人任务,Qualcomm、MediaTek、Samsung等厂商提交结果。测试场景包括Offline、Server、SingleStream和MultipleStream,突出设备端高效推理性能,推动移动AI标准化发展。本轮结果显示Arm Total Design平台在聊天机器人任务中表现出色,标志着客户端AI基准迈入新阶段。(128字)

MLCommons组织发布了MLPerf Client v1.0基准测试的首次结果,这是首个专为客户端和边缘设备设计的AI推理性能基准,旨在评估移动设备上的生成式AI和传统AI任务表现。

基准测试概述

MLPerf Client v1.0聚焦移动和边缘计算场景,引入六项关键任务:

  • Image Super-Resolution:使用Real-ESRGAN x4模型处理DIV2K验证集。
  • Image Classification:MobileNet V3在ImageNet数据集上。
  • Object Detection:YOLOv5在COCO val2017数据集上。
  • Speech-to-Text:Conformer模型在LibriSpeech数据集上。
  • Chatbot:首次引入Llama 3.1 8B Instruct模型,支持ShareGPT-4o数据集的对话生成。
  • Image Generation:Stable Diffusion XL Turbo生成MS COCO 2014提示图像。

测试场景覆盖Offline(批量处理)、Server(实时请求)、SingleStream(单流)和MultipleStream(多流),质量目标阈值确保结果可比性。

参与者和结果亮点

本次提交来自Arm、Intel、MediaTek、Qualcomm、Samsung和Tenstorrent等厂商。关键发现包括:

  • Qualcomm的Snapdragon平台在多个任务中领先,如Chatbot SingleStream场景达到高吞吐量。
  • Arm Total Design在Chatbot任务表现出色,实现高效的Llama 3.1 8B推理。
  • MediaTek和Samsung在图像生成和语音任务中提交强劲结果。
  • 首次Chatbot结果强调了量化技术(如INT4)和优化框架的重要性。

完整结果表格详见官方页面,包括性能指标如Samples/s和Latency。

意义与展望

MLPerf Client v1.0填补了客户端AI基准空白,推动SoC厂商优化生成式AI在手机、平板等设备上的部署。未来版本将扩展更多模型和场景,促进AI边缘计算标准化。