三十年来,安全社区一直依赖协调漏洞披露(Coordinated Vulnerability Disclosure)处理危险发现。该方法通过私下报告、私下修复、再公开细节的方式运作,核心前提是系统可被修复且修复能消除危害。
然而,这一前提在AI系统中不成立。MLCommons在构建安全与越狱基准时已认识到此问题,并将其视为前沿模型评估的核心治理挑战。
为何协调披露模式在AI领域失效
AI评估的三大特性打破了传统模式:
发现本质上具有双重用途
评估结果既能帮助防御者、监管者和用户了解系统行为,也同样会指引对手。它降低了对手定位漏洞的成本,即产生“提升效应”(uplift)。即使不暴露秘密能力,也会降低寻找能力的门槛。若默认公开结果却隐瞒某类别,反而会成为信号。
过多反馈会破坏测试
可重复运行的基准面临张力:开发者需要反馈改进通用属性,但不能获得具体测试实例。提供精确提示会导致模型仅针对测试优化,而非真实改进。应仅传达通用情况,而非具体实例,且不可仅依赖自我证明。
已发布的开放权重模型无法修补
这是打破传统模式的关键。开放权重模型的新版本是全新产物,而非更新。旧权重副本会永久保留在任何人手中。若在先前模型中发现CBRNE危害,该危害将无限期存在。敏感类别发现需聚合或统一隐藏,避免成为针对性地图。
从原则走向标准
MLCommons已将实践提交至ISO/IEC JTC 1/SC 42,推动ISO/IEC TS 42119-8标准制定,旨在为所有评估方提供可引用的负责任披露框架。
对越狱基准的意义
即将发布的越狱基准将配备基于上述考虑的披露政策,保护公众免受有害提升、维护评估完整性,并应对不可集中修复系统的风险。该政策已与SC 42标准对齐。
MLCommons近期成立代理安全工作组,欢迎加入以共同应对AI安全挑战。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接