新鲜基准,可靠分数:引入AI风险评估的持续提示管理

AI行业每隔几个月就会推出新一代前沿模型,每一代模型都比上一代更加强大,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。一个针对去年模型设计的基准,可能无法有效诊断今年的模型。

这是AI评估面临的核心挑战:评估工具必须跟上技术发展的步伐。如果跟不上,结果不会是戏剧性的失败,而是悄无声息的失效。分数仍然会产生,等级仍然会分配,但这些数字逐渐无法反映真实世界的风险,让依赖它们的组织基于过时的信号运作。

在LLM聊天机器人推出后,AI基准迅速增多。然而,很少有基准具备机制来解决“基准新鲜度”这一根本问题。另外一个复杂因素是,基准通常公开评估数据集,这允许模型开发者直接在测试数据上训练。尽管许多基础模型组织有政策禁止这种行为,但即使是这些组织也难以确保测试数据不混入日益庞大的训练数据集。当模型在基准上训练时,得分反映的是记忆而非真正的风险管理或能力。BenchRisk是一个独立的框架,用于评估57种失败模式下的基准质量,它量化了这个问题:在评估的26个AI基准中,中位长寿分数仅为5/100。这些基准会饱和、被操纵,或 просто停止区分系统。AILuminate是MLCommons的AI Risk and Reliability (AIRR)工作组开发的首个基准,专门设计来抵抗这种模式。其v1.0提示数据集包括24,000个人类创作的提示,覆盖12个危害类别。它由私人管理,内置储备提示集以允许提示轮换,并在所有26个基准中获得最高综合分数,包括长寿分数75。然而,尽管AILuminate的长寿性可能优于同类基准,但它仍会随时间退化。确保AILuminate持续提供可靠的真实世界信息意味着基准本身需要维护。

AILuminate长期价值的关键组成部分是用于维持基准新鲜度的运营基础设施:我们称之为Continuous Prompt Stewardship System。在这个系统中,“Continuous”表示提示刷新是由提示性能的定量测量驱动的技术要求,不能等待组织带宽或日历周期。“Stewardship”表示对社区共享资源的托管管理,带有关怀、透明和问责义务。这反映了MLCommons实现“Better AI for Everyone”的使命。MLCommons的多利益相关者社区跨越行业、学术界、政府、公民社会和更广泛的公众。我们的提示管理基础设施旨在代表他们维持基准的完整性。

保持基准新鲜度需要什么

这在原则上听起来简单,但需要同时解决几个相互关联的问题。你需要每个提示的质量指标来检测陈旧。你需要储备提示准备轮换。你需要新提示的质量指标,以及整个提示数据集的指标,以确保危害分类的全面覆盖和足够的多样性来抵抗过拟合。这些指标需要坚实的科学基础,而非仅凭编辑判断。你需要足够广泛的贡献者管道,以基准所需的速度产生多样、适当代表性和自然的提示。这个贡献者管道必须包括严格的质量控制,以满足行业标准基准所吸引的审查。而且,所有这些都需要文档化和可审计,因为MLCommons运行的每个基准的可信度最终取决于生成它的提示的完整性。为了满足这些要求,Prompt Stewardship System对AILuminate管理提示数据集的方式进行了以下更改。

由提示指标驱动的刷新节奏。 提示轮换将由经验性能驱动,例如观察到的区分力下降、天花板效应、提示间新兴相关性等。我们采用基于心理测量学原理的测量方法,特别是Item Response Theory,这是从SAT到医学执照考试等标准化测试中使用的测量框架。

闭环数据集再平衡。 每当提示被添加或退役时,系统会重新计算数据集级指标,例如所有12个危害类别的覆盖平衡、难度分布和语言多样性。通过再平衡识别的差距(例如某个危害类别覆盖减少、某个难度带变稀疏等)会为下一个提示生成周期生成规范和要求。再平衡关闭了退役和生成之间的循环。即使单个提示轮换,整个数据集的整体测量属性也能保持。

社区驱动的贡献者模型。 v1.0提示由合同供应商按规范编写产生,这类似于Eric Raymond在开源开发基础论文中描述的“cathedral”模型。它有效交付了初始数据集。但它将专业知识集中在少数组织,并限制了提示生产的速度和多样性。Prompt Stewardship System转向Raymond比作“bazaar”的开放协作模型,通过扩大作者范围,包括MLCommons员工、成员组织志愿者、认证的公众贡献者和雇佣专家。这种转变提高了规模和质量,因为多样化的贡献者基础会产生风格、词汇和文化框架更自然的变异提示。然而,开放贡献模型只有在质量控制随之扩展时才能运作。Wikimedia以合同劳动力无法匹敌的规模产生参考质量知识,不是因为任何人可以编辑任何东西,而是因为分层信任水平和共享标准。Prompt Stewardship System应用相同原则:每个贡献者通过文档化的资格路径进步,其状态在每个步骤记录。结果不是模糊的“专家作者”断言,而是文档化的、定量证据表明每个贡献者符合相同标准。

边界案例的双路径审查。 AILuminate使用“LLM-as-judge”方法。使用专用评估模型评分响应高度可扩展,但每个LLM-as-judge都有局限。当提示模糊、文化细微或测试困难的风险边界时,评估器可能难以产生高信心分数。行业范围内,基准缺乏处理这些项目的基础设施,它们通常要么以噪声分数包含,要么 quietly排除,在两种情况下人类审查都没有填补空白。我们认为这种惯例是倒退的。评估器不兼容的提示往往测试最重要和最难的边界——人类判断最重要的情况。Prompt Stewardship System将这些案例路由到合格的人类审查员,在最难测量的区域构建ground truth。

人类ground truth密度。 大多数基准,包括AILuminate v1.0,在需要时进行人类审查,依赖于个人判断何时何地需要人类监督。这种方法合理,但它不同于将人类审查视为基准的可测量、可跟踪属性。这意味着需要ground truth密度指标,这是一个数据集级测量,衡量多少提示集已被合格人类审查员验证,并在危害分类中跟踪覆盖。该指标将人类监督从ad hoc实践转化为可报告的分层覆盖目标。然后,MLCommons可以对基准结果下的人类审查水平做出定量声明。

白名单测试通道。 设计用于探测AI风险的提示,本质上旨在引发有害响应。通过标准LLM API访问提交数千个此类提示会触发提供商用于保护平台的滥用检测机制。Prompt Stewardship System通过白名单通道运作:与AI系统提供商的直接协议,授权提交评估提示。没有学术基准维护这种基础设施,这是为什么这种规模的机构基准需要具有既定提供商关系的独立组织的核心原因。

可审计的来源。 每个提示将携带文档记录,包括谁编写、何时、在何种方法下以及为什么包含。作为产生行业标准基准的501(c)(6)非营利组织,MLCommons期望基准决策经得起外部审查。来源框架确保提示选择是可辩护的——不仅仅技术上健全,而且透明如此。

为什么这对MLCommons以外很重要

提示管理解决了并非AILuminate独有的问题。每个基准都面临类似的生命周期挑战:陈旧、污染风险等。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!