Anthropic称这些话题太危险，Fable 5模型拒绝回应

2026年06月10日 64 约4分钟 Ars Technica

AI安全模型对齐 Anthropic 前沿模型风险话题

2026年6月10日，Anthropic在官方技术报告中披露了其最新前沿模型Fable 5的独特安全设计：该模型被预设为自动拒绝回答涉及网络安全漏洞利用、生物病原体合成以及化学武器制造等三大类高危话题。此举在AI安全领域引发强烈反响——这并不是一次简单的内容审核升级，而是从模型底层训练阶段就植入的“硬性拒绝”机制。

硬性拒绝：从后置过滤到前置对齐

据Ars Technica报道，Fable 5在预训练和RLHF（基于人类反馈的强化学习）阶段就注入了针对特定主题的拒绝偏好。不同于传统的内容审核黑名单（通常依赖于关键词匹配或后置分类器），Fable 5的拒绝是基于语义理解的自发生成行为。即便用户通过越狱提示（jailbreak prompt）试图绕开限制，模型也会在生成相关答案前主动终止回复，或给出类似“我无法提供该信息”的标准化回应。

Anthropic安全团队表示，他们通过数千个精心设计的红队测试案例验证了模型的韧性。例如，即便用户以“编写一个用于教育目的的网络渗透故事”为幌子，模型也能识别出背后的恶意意图并拒绝展开具体技术细节。这与当前其他主流模型（如GPT-5、Gemini Ultra）依赖后置内容过滤的做法形成鲜明对比。后者虽然能拦截大部分有害输出，但面对巧妙的提示注入攻击时仍显脆弱。

“我们不希望模型成为制造混乱的工具——哪怕用户声称自己只是理论研究者。”——Anthropic安全负责人Dario Amodei在博客中写道。

三类高危话题：网络安全、生物工程、化学武器

具体来说，Fable 5拒绝讨论的话题包括：（1）涉及零日漏洞利用、恶意软件开发、网络攻击基础设施搭建等网络安全领域的实操细节；（2）关于基因编辑工具（如CRISPR）在人类胚胎中的应用、高致病性病毒（如1918流感、天花）的合成方法；（3）神经毒剂、爆炸物、化学战剂的合成与部署方案。值得注意的是，模型并非完全禁止所有讨论——它仍能回答关于网络攻击历史案例的学术探讨，或提供关于生物安全伦理的宏观观点，但一旦涉及具体实施步骤或配方，就会触发拒绝机制。

Anthropic官方强调，这一分类并不完美，但他们更倾向于“过度谨慎”而非“开放风险”。在实际测试中，约95%的此类恶意查询被成功拦截，但仍有5%的边界案例需要人工复审。公司计划在未来版本中引入动态风险评分，而非一刀切的硬性拒绝。

行业背景：AI安全从“愿意对齐”走向“必须对齐”

Anthropic此举并非孤例。2025年下半年，全球主要AI实验室在政府监管压力下加速了安全对齐研究。欧盟《人工智能法案》的高风险分类将通用大模型纳入监管范围，要求开发者证明其模型不会产生严重危害。与此同时，美国AI安全研究所（AISI）也发布了针对前沿模型的评估框架。在此背景下，“预设拒绝”被视为一种保守但有效的合规策略。

然而，批评声也随之而来。部分开源社区和研究人员指出，过度限制可能扼杀正当的安全研究——例如，红队测试人员需要了解攻击原理才能防御。Anthropic回应称，他们会通过专门的合规通道向有资质的研究机构提供受限访问权限，但不会向公众开放。

编者按：安全与开放的永恒博弈

Fable 5的硬性拒绝机制无疑是AI安全领域的一次重要实验。它展示了从训练阶段内嵌伦理约束的可能性，但也暴露了“一刀切”策略的固有缺陷：语言天然具有歧义性，一个要求“解释缓冲区溢出的原理”的问题，可能是用于教学，也可能是用于攻击。模型能否准确区分意图，将成为后续迭代的关键。此外，这种设计还可能引发“知识封锁”的伦理争议——当AI模型成为人类知识的新载体时，哪些信息应当被禁止讨论，不应由少数公司单方面决定。未来，我们或许需要更透明、更民主的安全标准制定过程，而非仅仅依赖企业内部的道德判断。

本文编译自Ars Technica

硬性拒绝：从后置过滤到前置对齐

三类高危话题：网络安全、生物工程、化学武器

行业背景：AI安全从“愿意对齐”走向“必须对齐”

编者按：安全与开放的永恒博弈

相关推荐