MLCommons 为可辩护越狱基准测试奠基

2026年02月18日 10 约5分钟 MLC

MLC MLCommons 越狱攻击基准测试 AI安全大语言模型

随着大语言模型逐步应用于安全、安全性和合规性关键环境，对抗性提示的鲁棒性已成为运营必需。单轮越狱攻击——用户通过精心设计的提示绕过防护措施——持续暴露部署系统的弱点。

MLCommons 现推出基于分类法的越狱评估方法。该发布确立了可辩护、可复现且符合治理要求的鲁棒性评估结构基础。详阅：A Robust, Defensible, and Reproducible Methodology for Benchmarking Single-Turn Jailbreak Attacks on Large Language Models。

单轮、推理时提示攻击（“jailbreaks”）仍是部署LLM最实用且持久的攻击面。这些攻击无需访问模型权重、训练数据或系统内部，仅需公共提示接口。

然而，现有的评估方法往往依赖：

这导致三大系统性问题：

对于在新兴AI治理框架下运营的组织，这些限制使展示稳健保障流程变得困难。基准开发者需能证明覆盖、复现测试并解释失败模式——这项工作将助其实现。

这并非基准发布：而非扩展提示数量或发布排行榜式指标，本工作优先基础架构。

核心创新是机制优先的单轮提示攻击基准操作分类法。该分类法采用下图所示的严谨过程开发。

本文由 赢政天下编译整理，更多海外AI资讯，尽在赢政天下。

该分类法：

简而言之，分类法设计成为首要方法论承诺，而非事后补充。此外，该结构化开发过程确保类别保持：

基于构建机制优先越狱分类法并实现各类别代表性攻击的经验，涌现出若干建立稳健可辩护基准的实践经验：

这些经验表明，可辩护越狱基准依赖原则性分类法构建、可复现攻击实例化和机制感知评估设计，而非单纯规模。

随着越狱技术演进，本工作的下一阶段将聚焦扩展覆盖、强化复现性和扩展评估基础设施。主要优先事项包括：

推进稳健可辩护AI安全评估需研究、工程和政策社区持续协作。我们邀请研究者、开发者和从业者参与开放工作组，贡献越狱度量持续演进。贡献可包括：

通过共享技术专长和协调开发，社区可直接塑造严谨、透明且全球相关的AI安全基准。

如有疑问或欲参与，请通过此处链接加入我们。

相关推荐