AI评估披露困境:传统补丁模式为何失效

This article has not been translated into English yet. Showing the original Chinese version.

三十年来,安全社区一直依赖协调漏洞披露(Coordinated Vulnerability Disclosure)处理危险发现。该方法通过私下报告、私下修复、再公开细节的方式运作,核心前提是系统可被修复且修复能消除危害。

然而,这一前提在AI系统中不成立。MLCommons在构建安全与越狱基准时已认识到此问题,并将其视为前沿模型评估的核心治理挑战。

为何协调披露模式在AI领域失效

AI评估的三大特性打破了传统模式:

发现本质上具有双重用途

评估结果既能帮助防御者、监管者和用户了解系统行为,也同样会指引对手。它降低了对手定位漏洞的成本,即产生“提升效应”(uplift)。即使不暴露秘密能力,也会降低寻找能力的门槛。若默认公开结果却隐瞒某类别,反而会成为信号。

过多反馈会破坏测试

可重复运行的基准面临张力:开发者需要反馈改进通用属性,但不能获得具体测试实例。提供精确提示会导致模型仅针对测试优化,而非真实改进。应仅传达通用情况,而非具体实例,且不可仅依赖自我证明。

已发布的开放权重模型无法修补

这是打破传统模式的关键。开放权重模型的新版本是全新产物,而非更新。旧权重副本会永久保留在任何人手中。若在先前模型中发现CBRNE危害,该危害将无限期存在。敏感类别发现需聚合或统一隐藏,避免成为针对性地图。

从原则走向标准

MLCommons已将实践提交至ISO/IEC JTC 1/SC 42,推动ISO/IEC TS 42119-8标准制定,旨在为所有评估方提供可引用的负责任披露框架。

对越狱基准的意义

即将发布的越狱基准将配备基于上述考虑的披露政策,保护公众免受有害提升、维护评估完整性,并应对不可集中修复系统的风险。该政策已与SC 42标准对齐。

MLCommons近期成立代理安全工作组,欢迎加入以共同应对AI安全挑战。

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!