Anthropic发布Claude Fable 5：公众可用的Mythos级模型

2026年06月10日 1,113 约3分钟 TechCrunch

Anthropic Claude Fable 5 AI安全大模型 Mythos级

Anthropic发布Claude Fable 5：公众可用的Mythos级模型

Anthropic今日宣布，其最新AI模型Claude Fable 5正式向公众开放。这是该公司首个Mythos级别的公开模型，标志着Anthropic在先进AI能力与安全可控性之间找到了新的平衡点。

Mythos系列：安全与能力的双重迭代

Anthropic此前推出的模型分为多个等级：基础级（Base）、改进级（Improved）以及此前仅供内部测试的Mythos级。Mythos系列被设计为在保持强大推理能力的同时，内置最严格的安全护栏。Claude Fable 5正是这一理念的集大成者——它能够在复杂任务中展现接近人类专家的水平，但在涉及网络安全、生物技术、化学武器等高风险领域时，会主动拒绝生成可能被滥用或误导的内容。

“我们深知，AI能力的每一次跃升都可能带来新的风险。Fable 5的发布是我们在负责任AI道路上的重要里程碑。”——Anthropic安全团队负责人表示。

根据官方披露，Fable 5在多个基准测试中的表现超越了前代模型，尤其是在数学推理、代码生成和多轮对话一致性方面提升了30%以上。然而，其最独特的价值在于安全架构：模型内部嵌入了分层安全系统，能够识别并阻断约97%的高风险查询，同时允许用户在低风险场景下获得更开放的回答。

行业背景：AI安全竞赛白热化

Anthropic此次发布的时机耐人寻味。就在上周，OpenAI刚刚推出了其最新模型GPT-6，并宣布了类似的安全约束措施。与此同时，Google DeepMind也在研究“宪法AI”的升级版本。整个行业正从“能力竞赛”转向“安全竞赛”。Anthropic选择用“Fable”（寓言）来命名新模型，或许暗示着他们希望AI讲述的是一个安全可控的未来故事，而非失控的噩梦。

编者按：Fable 5的安全策略并非无懈可击。测试中仍有3%的高风险查询被错误放行，且模型在开放域对话中的“过度拒绝”现象可能影响用户体验。这提醒我们，AI安全始终是一场持续的博弈，而非一劳永逸的解决方案。

未来展望：从实验室到公众的艰难跨越

将Mythos级模型开放给普通用户，意味着Anthropic必须解决两个核心问题：第一，如何确保非恶意用户的创造力不被过度压制？第二，如何防止恶意用户绕过安全机制？Anthropic的回答是“动态许可”机制——用户的使用记录、意图分析以及查询上下文都会被实时评估，模型安全等级会根据风险评分自动调整。这一设计在行业内尚属首例。

不过，安全专家对此持谨慎态度。卡内基梅隆大学AI安全研究员指出：“任何基于规则的防护都有被逆向工程的可能。真正的安全需要模型本身具备内在的伦理判断，而不仅仅是外部护栏。”Fable 5的发布或许只是Anthropic长远计划的第一步——该公司此前透露，正在研发无需外部护栏即可自我约束的“完美对齐”模型。

本文编译自TechCrunch

Mythos系列：安全与能力的双重迭代

行业背景：AI安全竞赛白热化

未来展望：从实验室到公众的艰难跨越

相关推荐