MLPerf Inference (共3篇)

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准,以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景,提供全面性能评估。多节点系统提交量激增30%,最大系统达72节点288加速器,彰显行业对大规模推理的重视。24家组织参与,推动AI透明与创新。(128字)

MLC MLPerf Inference AI基准测试
532

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,擅长数学、科学推理与编码;DeepSeek-R1 交互场景,针对实时推理应用,首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集,准确模式覆盖 AIME 2024(82.92%)、GPQA-Diamond(74.95%)、LiveCodeBench v6(84.68%);性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms,支持 EAGLE-style decoding。参考实现已在 GitHub 提供。(128字)

MLC MLPerf Inference GPT-OSS 120B
416

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11,这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP 达 53.4%,参数仅 2530 万,支持多种计算精度权衡。任务组选择了 YOLO11l 变体,并开发了合规的 COCO MLPerf 子集(80 类、1525 张图像、52 MB),确保基准合法分发。同时优化 LoadGen 集成,解决类别映射、坐标归一化和序列化问题,实现与 Ultralytics 参考一致的准确率。该升级反映 AI 目标检测领域的最新趋势,推动硬件优化。(128 字)