AI可靠性地图:规则与环境

无论AI系统被应用于医疗、银行还是能源等领域,其复杂的黑箱特性都要求我们首先明确期望的行为,然后评估系统的交付可靠性。只有理解可靠性,我们才能管理风险(如是否80%的可靠性足以保障生命安全的系统)和控制成本(如客户服务错误率在成本降低下的可接受程度)。

AI软件可靠性测量是MLCommons AI风险与可靠性工作组的核心任务。提高AI可靠性对于市场增长和社会保护至关重要。我们认为,成功提高行业内AI可靠性需要一个系统且周密的计划,并需有效地实施、迭代和维护该计划。

如同任何长远规划一样,我们的起点是制定一张地图——这张AI可靠性地图将随着时间的推移不断演变和完善。

我们首先专注于AI系统行为可靠性的部署前测试。在AI应用生命周期中,可靠性需在开发、部署和操作阶段分别加以关注:开发中的流程,部署中的测试,以及操作中的监控。我们初步关注部署的测试,因为它为我们提供了最具体的变革机会,特别是AI系统的行为:其响应和所采取的行动。硬件和常规软件的可靠性管理已有现有方法。

AI可靠性(AIR)的核心是在不同环境下始终遵循行为规则。我们引入AI可靠性地图以将这些问题与在不同环境下始终遵循规则的基本概念联系起来:

AI可靠性地图:规则与环境环境正确性:在遵循指令的情况下遵循规则安全性:抵御恶意行为者引发的规则违规规则功能性需要测试需要测试数据保护需要测试需要测试产品安全需要测试需要测试前沿安全需要测试需要测试心理社会极限需要测试需要测试

以上矩阵中的行表示系统需遵守的规则,列表示系统需在何种环境下遵守这些规则。无论是正常指令还是恶意行为(如提示注入或错误信息)都需遵循功能性规则。同样地,正常指令可能会引诱系统违反隐私规则,与攻击行为同样危险。这就是为什么我们必须在所有环境下遵循所有规则,从正常使用到恶意行为。

值得注意的是,AI安全性不能单独测试:需尝试违反规则进行测试,系统行为可能因测试的规则不同而显著变化,因此需在所有系统行为中进行测试。

图1

这张AI可靠性地图帮助我们定义问题,但要采取行动则需更为详细。下面为规则和环境的类别及子类别提供了更多详细信息。这些子类别旨在解决商业系统部署前测试中已知的突出问题。整个矩阵是可扩展的,以便应对新兴或越来越重要的问题。

关于这次扩展值得注意的几点:首先,功能性涵盖了遵守法规和部署要求,前者始终优先于后者。其次,数据保护涵盖了个人数据隐私期望以及“离散信息管理”,如公司数据和知识产权的适当使用。第三,在我们的地图中,前沿安全涵盖了CBRN和进攻性网络。

通过色块可以了解AI测试现状。黄色表示大多数公共能力测试的范围。绿色和蓝色表示MLCommons AILuminate安全性和越狱基准测试的范围。

任何具有自然界面的中高级AI代理,无论其目的如何,理论上都可能在整个范围内失败。个人财务AI系统可能会提供错误的财务建议、按请求设计病毒、使黑客获取机密公司信息或诱骗用户进行非预期购买。这些AI工具在各个垂直领域都会面临特定风险(如错误的财务建议、非预期购买)和一般风险(如病毒、黑客攻击)。我们的挑战是作为一个行业和领域,开发一个结构合理但不断演变的部署测试方法来覆盖这张地图。

这是MLCommons AI风险与可靠性工作组的工作,行业、学术界和政府共同努力,将这样的框架转化为可操作的基准,包括AILuminate。作为一个开放的工程联盟,MLCommons独具领导此项工作的优势——将构建AI系统的组织与部署、监管和受其影响的组织联合起来。如果您的组织正在努力理解或提高AI可靠性,我们希望能与您一起构建。了解更多并加入AIRR工作组,请访问mlcommons.org/working-groups/ai-risk-reliability。

この記事は MLC のブログから、Winzheng (winzheng.com) が全文翻訳しました。 原文はこちら 翻訳を転載する場合は、出典を明記してください。