Standardizing Generative AI Service Evaluation: An API-Centric Benchmarking Approach

生成式AI迅猛发展,ChatGPT用户从中2023年中至2025年初增长约8倍,各大厂商模型迭代如火箭般迅猛。传统基准测试已跟不上节奏,MLPerf Endpoints应运而生,由MLCommons联合创始人David Kanter在GTC发布。该基准采用API中心架构,支持HTTP/gRPC接口,仅需URL即可测试云端或本地部署。创新引入Pareto曲线和阶跃函数可视化真实性能权衡,避免虚假指标。从2026年Q2起实现滚动提交,随时发布经审计结果。首批演示涵盖AMD、Google等厂商,多款模型如DeepSeek-R1、Llama 3.1,助力企业采购决策。(128字)

MLC MLPerf Endpoints 生成式AI基准
683

Engineering Judgment Test: Comparative Analysis of Database Deletion Recovery Solutions from 8 AI Models

In a database deletion recovery engineering judgment test, 8 mainstream AI models showed significant differences in understanding and response strategies. The models split into two distinct camps: 5 models scored 40 points by providing comprehensive solutions, while 3 models scored 0 by only addressing partial aspects of the problem.

YZ Index 模型横评 工程判断力:数据库误删恢复
592

Global Standards, Local Ground Truths: Piloting Multilingual, Multimodal AI Safety Understanding in APAC

AI作为当今采用速度最快的通用技术,其全球普及却存在显著差距,反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark,针对亚太地区开发文化特定的多语言多模态数据集,揭示模型在全球南方语境下的性能短板。文章强调文化特定风险评估,避免简单二元标签,转而鼓励本地专家定义适当响应,如中国送钟禁忌。多模态场景如识别本地物品图像尤为关键。目前数据集已含7000+文本+图像提示,覆盖新加坡、印度、韩国等地,计划2026年夏季发布。全球伙伴合作确保基准接地气,推动AI安全公平性。(128字)

MLC AI Safety 多模态基准
827

YOLO for the MLPerf Inference v6.0 Edge Suite

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11,这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP 达 53.4%,参数仅 2530 万,支持多种计算精度权衡。任务组选择了 YOLO11l 变体,并开发了合规的 COCO MLPerf 子集(80 类、1525 张图像、52 MB),确保基准合法分发。同时优化 LoadGen 集成,解决类别映射、坐标归一化和序列化问题,实现与 Ultralytics 参考一致的准确率。该升级反映 AI 目标检测领域的最新趋势,推动硬件优化。(128 字)

MLC MLPerf Inference YOLO11
822