Anthropic撤回Claude Fable 5：响应美国政府禁令

2026年06月13日 82 约4分钟 WIRED

Anthropic Claude Fable 5 AI安全政府监管越狱攻击

据WIRED报道，AI领域知名企业Anthropic于2026年6月13日宣布，将把其最新发布的大型语言模型Claude Fable 5从公共平台上撤下，以遵守美国政府的一项直接命令。该公司在一篇官方博客中写道：“政府认为它已意识到一种绕过Fable 5安全机制的方法，即所谓的‘越狱’（jailbreaking）。”这一声明标志着美国政府在AI安全监管领域采取的前所未有的强硬行动。

事件还原：一纸禁令引发的连锁反应

Anthropic在博客中详细说明了决策过程：公司接到美国某个未具名政府机构的通知，声称其内部安全评估发现Claude Fable 5存在严重的安全隐患——攻击者可以利用特定提示词组合完全绕过模型的内容过滤机制，生成包括恶意代码、虚假信息、危险指导在内的违禁内容。尽管Anthropic此前已对模型进行了多轮红队测试和安全加固，但政府方面认为该漏洞影响范围过大，要求立即关闭访问入口。

“我们尊重并理解政府的担忧。尽管我们相信Fable 5的整体安全性远超上一代产品，但考虑到潜在风险，我们选择主动配合，在24小时内将模型下线。”Anthropic首席技术官在声明中表示。目前，Claude Fable 5的API接口和网页对话均已停止服务，付费用户将获得全额退款及替代方案建议。

“政府认为它已意识到一种绕过Fable 5安全机制的方法，即所谓的‘越狱’。” —— Anthropic官方博客

行业背景：AI越狱攻击为何成为监管焦点？

越狱攻击并非新概念。自ChatGPT引发全球AI热潮以来，研究人员和黑客就不断尝试通过各种绕开安全过滤器——例如角色扮演、代码伪装、多轮诱导等——来获取模型的“失控”输出。大型模型因其庞大的参数空间和复杂的注意力机制，往往存在跨语言、跨模态的隐蔽漏洞，传统红队测试难以穷举。

2025年初，美国白宫发布的《AI安全与负责任发展行政令》明确要求：任何具有潜在高危能力的AI模型在公开发布前，必须通过第三方独立审计，并向政府提交安全评估报告。Claude Fable 5作为Anthropic在2026年推出的旗舰模型，其参数规模达到3万亿，在多语言理解、推理和代码生成方面实现了显著突破，但也因此成为监管的重点关注对象。

此次政府的直接命令，实际上是对行政令中“可撤销授权”条款的首次动用。业内分析师认为，这标志着美国政府从“建议式监管”转向“穿透式执法”，未来类似事件可能成为常态。

编者按：安全与创新之间的天平

Anthropic此次的让步令人想起2023年其母公司OpenAI因安全顾虑延迟发布GPT-4的情况，但此次是外部强制而非自发行为。这折射出一个根本矛盾：AI模型的强大能力与其不可预测性相辅相成；越狱漏洞往往随着模型能力增强而变得更具隐蔽性。政府的选择性干预虽然能遏制短期风险，但可能抑制技术迭代速度——毕竟，所有领先模型都需要在真实环境中暴露才能发现漏洞。

另一方面，Anthropic一直以“负责任的AI”为品牌核心，从“宪法AI”到“可解释性研究”，其技术路线强调预防而非事后补救。此次事件或许会倒逼业界开发更鲁棒的安全对齐技术，例如形式化验证、端到端安全训练等。然而，一个值得深思的问题是：当安全审查的边界由国家而不是技术社群定义时，创新的自主性将如何保障？

截至发稿时，Anthropic尚未公布Fable 5重新上线的具体时间表，仅表示正在与政府合作修复漏洞并重新申请安全认证。与此同时，竞争对手如OpenAI、Google DeepMind正在加速推出各自的下一代模型，而政府监管的阴影正笼罩着整个行业。

本文编译自WIRED

事件还原：一纸禁令引发的连锁反应

行业背景：AI越狱攻击为何成为监管焦点？

编者按：安全与创新之间的天平

相关推荐