MLC - AI资讯 | 赢政天下

AI可靠性地图：规则与环境

AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性，这不仅能推动市场增长，还能保护社会安全。通过制定详细计划并实施，确保AI系统在不同阶段的可靠性。

AI行业每隔几个月就会推出新一代前沿模型，这些模型的能力不断提升，同时也改变了监管机构、企业和公众需要评估的风险格局。然而，用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous Prompt Stewardship System，该系统通过持续刷新提示数据集，确保基准的长期有效性。系统采用基于心理测量学的指标驱动刷新、闭环数据集再平衡、社区驱动的贡献者模型、双路径审查以及可审计的来源记录等机制，解决基准陈旧和污染问题。AILuminate v1.0包含24,000个人类创作的提示，覆盖12个危害类别，并获得最高长寿分数75分。该系统不仅维护AILuminate的可靠性，还为整个AI基准领域提供宝贵经验，帮助应对基准生命周期挑战。

MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

MLCommons 近日发布 MLPerf Client v1.6，这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备，模拟真实生成式 AI 任务，如文本摘要、内容创作和代码分析，提供响应速度和吞吐量等标准化指标。新版更新了 Windows ML 和 llama.cpp 等核心运行时，支持 Apple 平台的 MLX with Metal 和 llama.cpp with Metal，提升性能与兼容性。同时，优化了图形界面启动速度、添加进度条，并允许禁用下载确认提示，提高重复测试效率。该基准由 AMD、Intel 等公司协作开发，开源免费，可通过 mlcommons.org/benchmarks/client 下载。（128字）

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级，以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准，以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景，提供全面性能评估。多节点系统提交量激增30%，最大系统达72节点288加速器，彰显行业对大规模推理的重视。24家组织参与，推动AI透明与创新。（128字）

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，擅长数学、科学推理与编码；DeepSeek-R1 交互场景，针对实时推理应用，首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集，准确模式覆盖 AIME 2024（82.92%）、GPQA-Diamond（74.95%）、LiveCodeBench v6（84.68%）；性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms，支持 EAGLE-style decoding。参考实现已在 GitHub 提供。（128字）

生成式AI服务评估标准化：API导向基准测试新范式

生成式AI迅猛发展，ChatGPT用户从中2023年中至2025年初增长约8倍，各大厂商模型迭代如火箭般迅猛。传统基准测试已跟不上节奏，MLPerf Endpoints应运而生，由MLCommons联合创始人David Kanter在GTC发布。该基准采用API中心架构，支持HTTP/gRPC接口，仅需URL即可测试云端或本地部署。创新引入Pareto曲线和阶跃函数可视化真实性能权衡，避免虚假指标。从2026年Q2起实现滚动提交，随时发布经审计结果。首批演示涵盖AMD、Google等厂商，多款模型如DeepSeek-R1、Llama 3.1，助力企业采购决策。（128字）

全球标准，本地真实：亚太多语言多模态AI安全基准试点

AI作为当今采用速度最快的通用技术，其全球普及却存在显著差距，反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark，针对亚太地区开发文化特定的多语言多模态数据集，揭示模型在全球南方语境下的性能短板。文章强调文化特定风险评估，避免简单二元标签，转而鼓励本地专家定义适当响应，如中国送钟禁忌。多模态场景如识别本地物品图像尤为关键。目前数据集已含7000+文本+图像提示，覆盖新加坡、印度、韩国等地，计划2026年夏季发布。全球伙伴合作确保基准接地气，推动AI安全公平性。（128字）

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11，这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP 达 53.4%，参数仅 2530 万，支持多种计算精度权衡。任务组选择了 YOLO11l 变体，并开发了合规的 COCO MLPerf 子集（80 类、1525 张图像、52 MB），确保基准合法分发。同时优化 LoadGen 集成，解决类别映射、坐标归一化和序列化问题，实现与 Ultralytics 参考一致的准确率。该升级反映 AI 目标检测领域的最新趋势，推动硬件优化。（128 字）

将 Text-to-Video 引入 MLPerf Inference v6.0

MLPerf Inference v6.0 基准套件首次引入文本到视频（Text-to-Video）任务，标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模型，该模型采用独特的专家混合架构，通过高噪声和低噪声专家顺序激活生成高质量视频。基准限制视频时长为5秒、720p分辨率、16fps，数据集基于 VBench 精简至248样本，使用 SingleStream 场景测量延迟。VBench 提供16维质量评估，精选6关键指标确保准确性和公平性。参考实现基于 Hugging Face Diffusers，在 BF16 精度下准确率达70.48。该基准为消费者决策和厂商优化提供标准化参考。

MedPerf 集成 Apache Airflow，提升联邦临床研究数据准备体验

MLCommons 医疗工作组通过 MedPerf 开源平台推进医疗 AI/ML 模型的真实世界基准测试与评估。最新集成 Apache Airflow，大幅简化联邦临床研究中的数据准备管道的分发、编排与监控。针对以往单容器方法带来的错误、调试难题及可扩展性不足等问题，新方案将多个容器串联成工作流，支持模块化复用、WebUI 监控与错误恢复。非技术用户只需 YAML 文件即可构建管道，自动转换为 Airflow DAG。FL-PoST 研究已投入生产，保障数据隐私并提升协作效率。欢迎社区探索与贡献。

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL GAP），通过数据驱动机制桥接高层标准与实际技术性能差距。该计划围绕三大支柱：Build（Benchmarking-as-a-Service，集成基准测试服务）；Show（AILuminate风险标签，提供决策友好指标）；Scale（AILuminate全球框架，支持区域和行业定制）。这为风险合规专业人士提供可验证的AI可靠性标准，推动行业成熟。（128字）

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射和一致覆盖。通过严谨过程构建分类法，提供系统性攻击选择、可复现生成和机制分层评估。未来将扩展覆盖、多模态评估，并邀请社区参与，推动AI安全评估标准化。（128字）

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为可操作基准，如AILuminate，用于生成AI安全与产品可靠性测试。这确保AI在金融、医疗、制造等高风险场景中可靠运行。历史如NCAP安全测试，推动汽车行业变革。标准化评估将驱动AI进步，建立公众信任，解锁更高价值市场。（128字）

Croissant 1.1 新功能：可扩展、代理就绪的 ML 数据集标准

MLCommons 发布 Croissant 1.1，这是社区共建的机器学习数据集元数据格式最新版本。在 Croissant 1.0 标准化机器可读结构基础上，1.1 版新增机器可操作来源追踪、全方位词汇互操作性、结构化使用政策以及复杂多维数据集增强建模。这些功能专为 AI '代理时代' 设计，支持链式保管审计、W3C PROV-O 模型、DUO 和 ODRL 政策集成。目前已有 70 万数据集采用 Croissant 元数据，主要框架如 TensorFlow、PyTorch 和仓库如 Hugging Face 已原生支持，推动数据自治发现与合规使用。（128 字）

DLRMv3：MLPerf Inference生成式推荐基准

计算规模扩展遵循神经缩放定律，已显著减少自然语言处理和计算机视觉领域的手动特征工程需求，转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统，传统依赖MLP、GNN和嵌入表架构，如今大型序列和生成模型已在在线内容推荐平台部署，大幅提升模型质量。MLPerf推出DLRMv3，作为首个序列推荐推理基准，基于HSTU架构，模型规模从50GB增至1TB（20倍），每候选计算从40M FLOP飙升至260 GFLOP（6500倍），紧跟生产级负载，助力基础设施发展。该基准聚焦排名阶段，支持长序列、注意力密集计算和大嵌入表，真实反映现代推荐工作负载。（128字）

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎，支持多模态模型对比。测试覆盖100+模型，顶级表现者包括GPT-4o（Elo 1300+）和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署，推动开源AI公平竞争。未来将扩展至边缘设备基准。（128字）

MLCommons发布Ailuminate法语数据集

MLCommons组织近日推出Ailuminate基准的法语数据集版本，进一步扩展多语言大语言模型（LLM）评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务，总计超过10万条高质量法语样本，由专业标注团队构建，确保文化适应性和准确性。基准测试显示，顶级模型如GPT-4o在法语任务上Elo Rating达1350分，但本土模型仍有优化空间。此举旨在推动法语AI生态发展，促进全球LLM公平评估。（128字）

MLPerf Client v0.6基准测试结果发布

MLCommons近日公布了MLPerf Client v0.6基准测试结果，这是首个针对客户端设备（如手机、笔记本）的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载，涵盖离线、服务器、单流等7种场景。NVIDIA、Qualcomm、MediaTek等厂商提交结果，展示了TensorRT-LLM、Snapdragon等平台的强劲性能。例如，在Llama 2 70B离线场景下，NVIDIA占据领先。结果凸显边缘AI推理的进步，推动移动设备大模型部署。（128字）

NASSCOM 加入 MLCommons 联盟，推动印度 AI 基准发展

MLCommons 宣布印度国家软件与服务公司协会（NASSCOM）正式加入其联盟，成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展，推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企业，总营收超 2000 亿美元，将为 MLCommons 带来印度市场洞察，促进全球 AI 创新与公平竞争。未来，双方将聚焦 AI 训练、推理基准等领域，加速印度 AI 基础设施建设。（128 字）

AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统，通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+ 的 Elo 分数领跑，紧随其后的是 GPT-4o 和 Gemini 1.5 Pro。报告强调了 SGLang 等优化框架在推理速度上的突破，并分析了开源模型如 Llama 3.1 的强劲崛起。本次更新覆盖了 100+ 模型，数据来源于数百万匿名对战，体现了真实用户偏好。该基准已成为 AI 模型评估的金标准，推动行业透明竞争。（128字）

MLPerf Training v5.0基准测试结果发布

MLCommons近日公布了MLPerf Training v5.0基准测试结果，这是AI训练性能的标准权威评估。此次结果涵盖了多项关键任务，包括BERT、ResNet-50、GPT-3 175B和新增的Llama 3.1 405B等，NVIDIA、Google和AMD等厂商提交了多项记录。NVIDIA H100和H200系统在多个任务中刷新纪录，展示了DGX H100等平台的强劲性能。结果强调了高效训练的重要性，推动AI硬件创新。详细数据见官网，助力行业选择最佳训练解决方案。（128字）

ATX基准专家面板深度解析

MLCommons近日举办的ATX（Agent Testing eXploration）基准专家面板讨论，由LMSYS Org等机构参与，聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径，强调多模态、多步推理和工具使用的重要性。专家们分享了Elo Rating在代理场景的局限性，并展望SGLang等框架的潜力。讨论揭示了标准化测试的紧迫性，以及构建可复现代理基准的未来方向。本文详解面板关键观点，为AI从业者提供洞见。（128字）

2025 MLC 新星榜单揭晓

MLCommons 发布了 2025 MLC Rising Stars 榜单，表彰在 MLPerf Inference v5.0 基准测试中使用 MLC（ML Compiler）框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 LLM 推理、图像生成等领域展现出高效性能，涵盖了 NVIDIA、AMD 等厂商的硬件平台。榜单强调 MLC 在优化模型部署方面的潜力，推动开源编译器在生产级 AI 工作负载中的应用。详细结果显示，某些系统在 Llama 3.1 等模型上实现了高吞吐量和低延迟，标志着 AI 硬件生态的快速发展。（128字）

Ares基准正式发布

MLCommons与LMSYS Org联合宣布Ares开源基准的推出，这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统，测试模型在复杂任务中的表现，包括工具调用和多轮交互。首批结果显示，GPT-4o和Claude 3.5 Sonnet位居前列，得分超过1400 Elo。新基准采用SGLang优化，支持高效评估大规模模型，推动AI代理标准化发展。该框架开源，欢迎社区贡献，标志着AI评估进入多模态代理时代。（128字）

MLPerf Mobile Android v4.0 基准测试结果重磅发布

MLCommons 发布了 MLPerf Mobile v4.0 Android 版基准测试结果，这是移动 AI 性能评估的最新标准。此次测试涵盖图像分类、目标检测、超分辨率、语音识别、3D-UNet、BERT Squad 和 Stable Diffusion 等七大任务，涉及 Qualcomm、Samsung、MediaTek 等多家厂商的顶级 Android 设备。结果显示，Qualcomm Snapdragon 8 Gen 3 在多项任务中领跑，Samsung Galaxy S24 Ultra 等旗舰机型表现出色。新版基准引入更真实的场景模拟，推动移动 AI 硬件优化。开发者可通过这些数据评估设备性能，助力边缘 AI 应用落地。（128字）

MLPerf Client v1.0发布：首款客户端AI推理基准测试结果

MLCommons近日公布MLPerf Client v1.0基准测试结果，这是首个针对移动和边缘设备的AI推理基准，涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instruct聊天机器人任务，Qualcomm、MediaTek、Samsung等厂商提交结果。测试场景包括Offline、Server、SingleStream和MultipleStream，突出设备端高效推理性能，推动移动AI标准化发展。本轮结果显示Arm Total Design平台在聊天机器人任务中表现出色，标志着客户端AI基准迈入新阶段。（128字）

Storage 2 检查点机制详解

MLCommons Storage 2 基准聚焦AI训练中的检查点（Checkpointing）存储性能，这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架，包括关键指标如检查点保存时间、恢复时间和吞吐量，涵盖多种硬件配置和训练场景。结果显示，高速NVMe SSD和优化网络在高并发检查点下表现出色，帮助开发者评估存储系统在大型模型训练（如LLM）中的瓶颈。LMSYS Org强调，这一基准将推动存储技术向万亿参数模型时代演进，提供标准化评测工具。（128字）

MLPerf Storage v2.0 基准测试结果发布

MLCommons 近日公布了 MLPerf Storage v2.0 基准测试结果，这是针对 AI 训练和推理工作负载下存储系统性能的最新评估。新版基准引入了更大规模的数据集和更真实的 AI 场景，包括 GPT-3 风格模型的训练与推理。结果显示，NVIDIA DGX SuperPOD 等顶级系统在读写吞吐量上表现出色，最高达数十 TB/s，同时延迟显著优化。多家厂商如 Pure Storage、DDN 和 NetApp 提交了结果，推动存储技术在 AI 时代的进步。本次测试强调了 NVMe-oF 和高性能网络的重要性，为 AI 基础设施选型提供宝贵参考。（128字）

MLPerf Auto v0.5 基准结果发布：LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果，这是针对自动化机器学习（AutoML）的最新标准。LMSYS Org 凭借创新方法脱颖而出，使用 Chatbot Arena 的 Elo Rating 作为核心质量指标，在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM，针对 Llama 3.1 405B 等模型进行高效自动化调优，实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力，同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果，但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。（128字）

MLCommons Whisper 推理基准 v5.1 发布

MLCommons 发布了 Whisper Inference v5.1 基准，针对 OpenAI Whisper 系列模型的语音转文本（STT）推理性能进行全面评估。新版本新增 large-v3 模型支持，优化了评估数据集和流程，主要指标包括 RTF（实时因子）和 WER（词错误率）。测试覆盖 CPU（Intel、AMD、Apple Silicon）和 GPU（NVIDIA、AMD）等多种硬件平台。结果显示，NVIDIA H100 GPU 在 RTF 上领先，能效比 RTF@WER20% 达 0.01 以下；Apple M3 在移动端表现出色。基准强调标准化测试，推动 STT 技术进步。完整排行榜详见 MLCommons 官网。（128 字）

MLC (共44篇)