MLCommons - AI测评 | 赢政天下

AI可靠性地图：规则与环境

AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性，这不仅能推动市场增长，还能保护社会安全。通过制定详细计划并实施，确保AI系统在不同阶段的可靠性。

AI行业每隔几个月就会推出新一代前沿模型，这些模型的能力不断提升，同时也改变了监管机构、企业和公众需要评估的风险格局。然而，用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous Prompt Stewardship System，该系统通过持续刷新提示数据集，确保基准的长期有效性。系统采用基于心理测量学的指标驱动刷新、闭环数据集再平衡、社区驱动的贡献者模型、双路径审查以及可审计的来源记录等机制，解决基准陈旧和污染问题。AILuminate v1.0包含24,000个人类创作的提示，覆盖12个危害类别，并获得最高长寿分数75分。该系统不仅维护AILuminate的可靠性，还为整个AI基准领域提供宝贵经验，帮助应对基准生命周期挑战。

MLC

MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

MLCommons 近日发布 MLPerf Client v1.6，这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备，模拟真实生成式 AI 任务，如文本摘要、内容创作和代码分析，提供响应速度和吞吐量等标准化指标。新版更新了 Windows ML 和 llama.cpp 等核心运行时，支持 Apple 平台的 MLX with Metal 和 llama.cpp with Metal，提升性能与兼容性。同时，优化了图形界面启动速度、添加进度条，并允许禁用下载确认提示，提高重复测试效率。该基准由 AMD、Intel 等公司协作开发，开源免费，可通过 mlcommons.org/benchmarks/client 下载。（128字）

MLC

全球标准，本地真实：亚太多语言多模态AI安全基准试点

AI作为当今采用速度最快的通用技术，其全球普及却存在显著差距，反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark，针对亚太地区开发文化特定的多语言多模态数据集，揭示模型在全球南方语境下的性能短板。文章强调文化特定风险评估，避免简单二元标签，转而鼓励本地专家定义适当响应，如中国送钟禁忌。多模态场景如识别本地物品图像尤为关键。目前数据集已含7000+文本+图像提示，覆盖新加坡、印度、韩国等地，计划2026年夏季发布。全球伙伴合作确保基准接地气，推动AI安全公平性。（128字）

MLC

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL GAP），通过数据驱动机制桥接高层标准与实际技术性能差距。该计划围绕三大支柱：Build（Benchmarking-as-a-Service，集成基准测试服务）；Show（AILuminate风险标签，提供决策友好指标）；Scale（AILuminate全球框架，支持区域和行业定制）。这为风险合规专业人士提供可验证的AI可靠性标准，推动行业成熟。（128字）

MLC

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射和一致覆盖。通过严谨过程构建分类法，提供系统性攻击选择、可复现生成和机制分层评估。未来将扩展覆盖、多模态评估，并邀请社区参与，推动AI安全评估标准化。（128字）

MLC

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为可操作基准，如AILuminate，用于生成AI安全与产品可靠性测试。这确保AI在金融、医疗、制造等高风险场景中可靠运行。历史如NCAP安全测试，推动汽车行业变革。标准化评估将驱动AI进步，建立公众信任，解锁更高价值市场。（128字）

MLC

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎，支持多模态模型对比。测试覆盖100+模型，顶级表现者包括GPT-4o（Elo 1300+）和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署，推动开源AI公平竞争。未来将扩展至边缘设备基准。（128字）

MLC

MLCommons发布Ailuminate法语数据集

MLCommons组织近日推出Ailuminate基准的法语数据集版本，进一步扩展多语言大语言模型（LLM）评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务，总计超过10万条高质量法语样本，由专业标注团队构建，确保文化适应性和准确性。基准测试显示，顶级模型如GPT-4o在法语任务上Elo Rating达1350分，但本土模型仍有优化空间。此举旨在推动法语AI生态发展，促进全球LLM公平评估。（128字）

MLC

NASSCOM 加入 MLCommons 联盟，推动印度 AI 基准发展

MLCommons 宣布印度国家软件与服务公司协会（NASSCOM）正式加入其联盟，成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展，推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企业，总营收超 2000 亿美元，将为 MLCommons 带来印度市场洞察，促进全球 AI 创新与公平竞争。未来，双方将聚焦 AI 训练、推理基准等领域，加速印度 AI 基础设施建设。（128 字）

MLC

ATX基准专家面板深度解析

MLCommons近日举办的ATX（Agent Testing eXploration）基准专家面板讨论，由LMSYS Org等机构参与，聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径，强调多模态、多步推理和工具使用的重要性。专家们分享了Elo Rating在代理场景的局限性，并展望SGLang等框架的潜力。讨论揭示了标准化测试的紧迫性，以及构建可复现代理基准的未来方向。本文详解面板关键观点，为AI从业者提供洞见。（128字）

MLC

2025 MLC 新星榜单揭晓

MLCommons 发布了 2025 MLC Rising Stars 榜单，表彰在 MLPerf Inference v5.0 基准测试中使用 MLC（ML Compiler）框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 LLM 推理、图像生成等领域展现出高效性能，涵盖了 NVIDIA、AMD 等厂商的硬件平台。榜单强调 MLC 在优化模型部署方面的潜力，推动开源编译器在生产级 AI 工作负载中的应用。详细结果显示，某些系统在 Llama 3.1 等模型上实现了高吞吐量和低延迟，标志着 AI 硬件生态的快速发展。（128字）

AI测评