Anthropic推双版本AI：Mythos 5赋能伙伴，Fable 5保障公众

2026年06月10日 1,111 约4分钟 WIRED

Anthropic AI安全双轨发布 Claude Mythos 5 Claude Fable 5

Anthropic推双版本AI：Mythos 5赋能伙伴，Fable 5保障公众

在AI安全与能力边界持续博弈的当下，Anthropic于2026年6月10日发布了备受关注的双版本模型策略。此次发布的Claude Mythos 5面向经过严格审查的合作伙伴组织——专注于网络安全攻防的红队和蓝队——赋予更强的前沿能力；而Claude Fable 5则作为公众版，通过设计层面的安全约束确保其无法被用于发动网络攻击。

神话与寓言：一明一暗的双轨策略

Anthropic将旗舰模型命名为“Mythos”（神话）与“Fable”（寓言），本身就带有强烈的叙事隐喻。前者通常承载人类最宏大的想象与冒险，正如为其合作伙伴提供的版本并不限制网络攻击相关能力——实际上，这是Anthropic红队合作项目的一部分，让安全专家可以测试最前沿的AI工具。后者“Fable”则带有教化与警示意味，代表着为普通人打造的安全版本，其行为边界被精心校准，类似于Constitutional AI框架下的严格约束。

“我们相信，真正的安全不是隐藏能力，而是为不同场景提供恰如其分的工具。” — Anthropic首席科学家在声明中表示。

根据WIRED获得的详细信息，Claude Mythos 5在多个基准测试中超越了前代，尤其是在渗透测试模拟、漏洞分析等高风险任务上表现亮眼。但该模型仅通过Anthropic的信任与安全合作伙伴计划分发，申请组织必须通过背景审查、安全能力评估以及持续监控协议。相比之下，Claude Fable 5放弃了几乎所有主动攻击能力：它无法生成可运行的恶意代码、无法提供具体的攻击步骤、甚至会在用户尝试利用其进行不安全行为时主动拒绝响应。

行业背景：AI安全风险的双面镜

Anthropic的这一决策并不孤立。随着大型语言模型在网络安全领域的应用日益广泛——从自动补全代码到辅助社工钓鱼——AI开发者在“赋能正义之手”的同时，必须防范“邪恶之手”的滥用。此前OpenAI曾通过API限制某些高风险指令，但从未像Anthropic这样明确地发布功能截然不同的双版本。这揭示了AI安全治理的一个核心矛盾：如果限制过度，会削弱红队防御者所需的进攻性测试能力；如果限制不足，又会给恶意行为者提供可乘之机。

尤其值得注意的是，Anthropic此次选择将其“神话”版本交给合作伙伴，而将“寓言”版本推向大众，实际上建立了一个基于信任的分层发放机制。这让人联想到核不扩散中的“敏感技术出口管制”——但AI的边界更模糊，分发范围也更广。

编者按：安全与能力的再平衡

从技术角度看，Anthropic的做法并非完美无缺。即便Fable 5通过了严格的对抗性测试，也无法百分百保证其不被绕过——凡是有能力的AI，就存在被越狱的可能性。然而，从治理层面看，这种“主动限能”的设计思路值得肯定：与其事后补救漏洞，不如事前在设计哲学中割舍部分能力。Mythos 5与Fable 5的命名恰好揭示了这一选择——神话留给冒险者，寓言留给普通人。

当然，这种双轨制也引发了关于公平性的讨论：为何只有特定伙伴能获得“完整版”？Anthropic表示，这是基于风险共识的必然选择——并非对普通人歧视，而是因为未经训练的人持有进攻性AI工具的危险性远超培训过的安全专家。这一逻辑在短期内似乎合理，但长期来看，随着AI渗透进日常工作，是否会出现“安全版本被边缘化”、“完整版成本过高”等问题？仍需观察。

无论如何，Anthropic的这次发布标志着AI安全领域进入了一个新阶段：不再试图用一个模型取悦所有人，而是为不同用户群定制不同的能力边界。这或许将成为未来大模型分发的主流范式。

本文编译自WIRED

神话与寓言：一明一暗的双轨策略

行业背景：AI安全风险的双面镜

编者按：安全与能力的再平衡

相关推荐