AI基准测试 (共7篇)

MLCommons 发布 MLPerf Client v1.6:性能优化与用户体验升级

MLCommons 近日发布 MLPerf Client v1.6,这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备,模拟真实生成式 AI 任务,如文本摘要、内容创作和代码分析,提供响应速度和吞吐量等标准化指标。新版更新了 Windows ML 和 llama.cpp 等核心运行时,支持 Apple 平台的 MLX with Metal 和 llama.cpp with Metal,提升性能与兼容性。同时,优化了图形界面启动速度、添加进度条,并允许禁用下载确认提示,提高重复测试效率。该基准由 AMD、Intel 等公司协作开发,开源免费,可通过 mlcommons.org/benchmarks/client 下载。(128字)

MLC MLPerf Client AI基准测试
302
MIT

下载专栏:零工在家训练人形机器人,更优AI基准测试

本期《下载》专栏聚焦两大热点:尼日利亚医学生Zeus等全球零工通过VR设备在家远程操控人形机器人,助力Figure AI和Tesla Optimus等项目积累训练数据,开启低成本机器人训练新时代。同时,AI基准测试迎来革新,新标准更准确评估模型性能,推动行业透明度提升。这些进展揭示AI与机器人领域的劳动力变革与技术跃进。(128字)

人形机器人 零工经济 AI基准测试
194

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准,以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景,提供全面性能评估。多节点系统提交量激增30%,最大系统达72节点288加速器,彰显行业对大规模推理的重视。24家组织参与,推动AI透明与创新。(128字)

MLC MLPerf Inference AI基准测试
519
MIT

AI基准测试失效了,我们需要什么替代方案?

数十年来,人工智能评估一直围绕机器是否超越人类展开,从国际象棋到高级数学、编程和散文写作,AI模型的表现总被与个体人类在孤立任务上的成绩对比。这种框架虽诱人,却忽略了AI在复杂、真实世界中的局限。基准测试饱和、数据污染等问题频发,导致评估失真。文章呼吁转向系统级、多模态和长期规划的新基准,以真正衡量AI潜力。(128字)

AI基准测试 人工智能评估 机器学习
205

MLPerf Client v1.0发布:首款客户端AI推理基准测试结果

MLCommons近日公布MLPerf Client v1.0基准测试结果,这是首个针对移动和边缘设备的AI推理基准,涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instruct聊天机器人任务,Qualcomm、MediaTek、Samsung等厂商提交结果。测试场景包括Offline、Server、SingleStream和MultipleStream,突出设备端高效推理性能,推动移动AI标准化发展。本轮结果显示Arm Total Design平台在聊天机器人任务中表现出色,标志着客户端AI基准迈入新阶段。(128字)