据WIRED报道,AI领域知名企业Anthropic于2026年6月13日宣布,将把其最新发布的大型语言模型Claude Fable 5从公共平台上撤下,以遵守美国政府的一项直接命令。该公司在一篇官方博客中写道:“政府认为它已意识到一种绕过Fable 5安全机制的方法,即所谓的‘越狱’(jailbreaking)。”这一声明标志着美国政府在AI安全监管领域采取的前所未有的强硬行动。
事件还原:一纸禁令引发的连锁反应
Anthropic在博客中详细说明了决策过程:公司接到美国某个未具名政府机构的通知,声称其内部安全评估发现Claude Fable 5存在严重的安全隐患——攻击者可以利用特定提示词组合完全绕过模型的内容过滤机制,生成包括恶意代码、虚假信息、危险指导在内的违禁内容。尽管Anthropic此前已对模型进行了多轮红队测试和安全加固,但政府方面认为该漏洞影响范围过大,要求立即关闭访问入口。
“我们尊重并理解政府的担忧。尽管我们相信Fable 5的整体安全性远超上一代产品,但考虑到潜在风险,我们选择主动配合,在24小时内将模型下线。”Anthropic首席技术官在声明中表示。目前,Claude Fable 5的API接口和网页对话均已停止服务,付费用户将获得全额退款及替代方案建议。
“政府认为它已意识到一种绕过Fable 5安全机制的方法,即所谓的‘越狱’。” —— Anthropic官方博客
行业背景:AI越狱攻击为何成为监管焦点?
越狱攻击并非新概念。自ChatGPT引发全球AI热潮以来,研究人员和黑客就不断尝试通过各种绕开安全过滤器——例如角色扮演、代码伪装、多轮诱导等——来获取模型的“失控”输出。大型模型因其庞大的参数空间和复杂的注意力机制,往往存在跨语言、跨模态的隐蔽漏洞,传统红队测试难以穷举。
2025年初,美国白宫发布的《AI安全与负责任发展行政令》明确要求:任何具有潜在高危能力的AI模型在公开发布前,必须通过第三方独立审计,并向政府提交安全评估报告。Claude Fable 5作为Anthropic在2026年推出的旗舰模型,其参数规模达到3万亿,在多语言理解、推理和代码生成方面实现了显著突破,但也因此成为监管的重点关注对象。
此次政府的直接命令,实际上是对行政令中“可撤销授权”条款的首次动用。业内分析师认为,这标志着美国政府从“建议式监管”转向“穿透式执法”,未来类似事件可能成为常态。
编者按:安全与创新之间的天平
Anthropic此次的让步令人想起2023年其母公司OpenAI因安全顾虑延迟发布GPT-4的情况,但此次是外部强制而非自发行为。这折射出一个根本矛盾:AI模型的强大能力与其不可预测性相辅相成;越狱漏洞往往随着模型能力增强而变得更具隐蔽性。政府的选择性干预虽然能遏制短期风险,但可能抑制技术迭代速度——毕竟,所有领先模型都需要在真实环境中暴露才能发现漏洞。
另一方面,Anthropic一直以“负责任的AI”为品牌核心,从“宪法AI”到“可解释性研究”,其技术路线强调预防而非事后补救。此次事件或许会倒逼业界开发更鲁棒的安全对齐技术,例如形式化验证、端到端安全训练等。然而,一个值得深思的问题是:当安全审查的边界由国家而不是技术社群定义时,创新的自主性将如何保障?
截至发稿时,Anthropic尚未公布Fable 5重新上线的具体时间表,仅表示正在与政府合作修复漏洞并重新申请安全认证。与此同时,竞争对手如OpenAI、Google DeepMind正在加速推出各自的下一代模型,而政府监管的阴影正笼罩着整个行业。
本文编译自WIRED
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接