Anthropic推双版本AI:Mythos 5赋能伙伴,Fable 5保障公众

Anthropic推双版本AI:Mythos 5赋能伙伴,Fable 5保障公众
Anthropic宣布发布两款新版Claude模型:面向可信组织的Claude Mythos 5,提供更强的网络攻防能力;以及面向公众的Claude Fable 5,通过严格安全限制确保无法被用于网络攻击。这一双轨策略折射出AI安全领域日益分化的趋势:一边是红队合作的需求,一边是公众使用的风险管控。

在AI安全与能力边界持续博弈的当下,Anthropic于2026年6月10日发布了备受关注的双版本模型策略。此次发布的Claude Mythos 5面向经过严格审查的合作伙伴组织——专注于网络安全攻防的红队和蓝队——赋予更强的前沿能力;而Claude Fable 5则作为公众版,通过设计层面的安全约束确保其无法被用于发动网络攻击。

神话与寓言:一明一暗的双轨策略

Anthropic将旗舰模型命名为“Mythos”(神话)与“Fable”(寓言),本身就带有强烈的叙事隐喻。前者通常承载人类最宏大的想象与冒险,正如为其合作伙伴提供的版本并不限制网络攻击相关能力——实际上,这是Anthropic红队合作项目的一部分,让安全专家可以测试最前沿的AI工具。后者“Fable”则带有教化与警示意味,代表着为普通人打造的安全版本,其行为边界被精心校准,类似于Constitutional AI框架下的严格约束。

“我们相信,真正的安全不是隐藏能力,而是为不同场景提供恰如其分的工具。” — Anthropic首席科学家在声明中表示。

根据WIRED获得的详细信息,Claude Mythos 5在多个基准测试中超越了前代,尤其是在渗透测试模拟、漏洞分析等高风险任务上表现亮眼。但该模型仅通过Anthropic的信任与安全合作伙伴计划分发,申请组织必须通过背景审查、安全能力评估以及持续监控协议。相比之下,Claude Fable 5放弃了几乎所有主动攻击能力:它无法生成可运行的恶意代码、无法提供具体的攻击步骤、甚至会在用户尝试利用其进行不安全行为时主动拒绝响应。

行业背景:AI安全风险的双面镜

Anthropic的这一决策并不孤立。随着大型语言模型在网络安全领域的应用日益广泛——从自动补全代码到辅助社工钓鱼——AI开发者在“赋能正义之手”的同时,必须防范“邪恶之手”的滥用。此前OpenAI曾通过API限制某些高风险指令,但从未像Anthropic这样明确地发布功能截然不同的双版本。这揭示了AI安全治理的一个核心矛盾:如果限制过度,会削弱红队防御者所需的进攻性测试能力;如果限制不足,又会给恶意行为者提供可乘之机。

尤其值得注意的是,Anthropic此次选择将其“神话”版本交给合作伙伴,而将“寓言”版本推向大众,实际上建立了一个基于信任的分层发放机制。这让人联想到核不扩散中的“敏感技术出口管制”——但AI的边界更模糊,分发范围也更广。

编者按:安全与能力的再平衡

从技术角度看,Anthropic的做法并非完美无缺。即便Fable 5通过了严格的对抗性测试,也无法百分百保证其不被绕过——凡是有能力的AI,就存在被越狱的可能性。然而,从治理层面看,这种“主动限能”的设计思路值得肯定:与其事后补救漏洞,不如事前在设计哲学中割舍部分能力。Mythos 5与Fable 5的命名恰好揭示了这一选择——神话留给冒险者,寓言留给普通人。

当然,这种双轨制也引发了关于公平性的讨论:为何只有特定伙伴能获得“完整版”?Anthropic表示,这是基于风险共识的必然选择——并非对普通人歧视,而是因为未经训练的人持有进攻性AI工具的危险性远超培训过的安全专家。这一逻辑在短期内似乎合理,但长期来看,随着AI渗透进日常工作,是否会出现“安全版本被边缘化”、“完整版成本过高”等问题?仍需观察。

无论如何,Anthropic的这次发布标志着AI安全领域进入了一个新阶段:不再试图用一个模型取悦所有人,而是为不同用户群定制不同的能力边界。这或许将成为未来大模型分发的主流范式。

本文编译自WIRED