AI评估披露困境：传统补丁模式为何失效

Jun 29, 2026 20 Views - Read Source MLC

MLC AI Safety 模型评估负责任披露基准测试 AI风险

This article has not been translated into English yet. Showing the original Chinese version.

三十年来，安全社区一直依赖协调漏洞披露（Coordinated Vulnerability Disclosure）处理危险发现。该方法通过私下报告、私下修复、再公开细节的方式运作，核心前提是系统可被修复且修复能消除危害。

然而，这一前提在AI系统中不成立。MLCommons在构建安全与越狱基准时已认识到此问题，并将其视为前沿模型评估的核心治理挑战。

为何协调披露模式在AI领域失效

AI评估的三大特性打破了传统模式：

评估结果既能帮助防御者、监管者和用户了解系统行为，也同样会指引对手。它降低了对手定位漏洞的成本，即产生“提升效应”（uplift）。即使不暴露秘密能力，也会降低寻找能力的门槛。若默认公开结果却隐瞒某类别，反而会成为信号。

可重复运行的基准面临张力：开发者需要反馈改进通用属性，但不能获得具体测试实例。提供精确提示会导致模型仅针对测试优化，而非真实改进。应仅传达通用情况，而非具体实例，且不可仅依赖自我证明。

这是打破传统模式的关键。开放权重模型的新版本是全新产物，而非更新。旧权重副本会永久保留在任何人手中。若在先前模型中发现CBRNE危害，该危害将无限期存在。敏感类别发现需聚合或统一隐藏，避免成为针对性地图。

MLCommons已将实践提交至ISO/IEC JTC 1/SC 42，推动ISO/IEC TS 42119-8标准制定，旨在为所有评估方提供可引用的负责任披露框架。

即将发布的越狱基准将配备基于上述考虑的披露政策，保护公众免受有害提升、维护评估完整性，并应对不可集中修复系统的风险。该政策已与SC 42标准对齐。

MLCommons近期成立代理安全工作组，欢迎加入以共同应对AI安全挑战。