2026年6月10日,Anthropic在官方技术报告中披露了其最新前沿模型Fable 5的独特安全设计:该模型被预设为自动拒绝回答涉及网络安全漏洞利用、生物病原体合成以及化学武器制造等三大类高危话题。此举在AI安全领域引发强烈反响——这并不是一次简单的内容审核升级,而是从模型底层训练阶段就植入的“硬性拒绝”机制。
硬性拒绝:从后置过滤到前置对齐
据Ars Technica报道,Fable 5在预训练和RLHF(基于人类反馈的强化学习)阶段就注入了针对特定主题的拒绝偏好。不同于传统的内容审核黑名单(通常依赖于关键词匹配或后置分类器),Fable 5的拒绝是基于语义理解的自发生成行为。即便用户通过越狱提示(jailbreak prompt)试图绕开限制,模型也会在生成相关答案前主动终止回复,或给出类似“我无法提供该信息”的标准化回应。
Anthropic安全团队表示,他们通过数千个精心设计的红队测试案例验证了模型的韧性。例如,即便用户以“编写一个用于教育目的的网络渗透故事”为幌子,模型也能识别出背后的恶意意图并拒绝展开具体技术细节。这与当前其他主流模型(如GPT-5、Gemini Ultra)依赖后置内容过滤的做法形成鲜明对比。后者虽然能拦截大部分有害输出,但面对巧妙的提示注入攻击时仍显脆弱。
“我们不希望模型成为制造混乱的工具——哪怕用户声称自己只是理论研究者。”——Anthropic安全负责人Dario Amodei在博客中写道。
三类高危话题:网络安全、生物工程、化学武器
具体来说,Fable 5拒绝讨论的话题包括:(1)涉及零日漏洞利用、恶意软件开发、网络攻击基础设施搭建等网络安全领域的实操细节;(2)关于基因编辑工具(如CRISPR)在人类胚胎中的应用、高致病性病毒(如1918流感、天花)的合成方法;(3)神经毒剂、爆炸物、化学战剂的合成与部署方案。值得注意的是,模型并非完全禁止所有讨论——它仍能回答关于网络攻击历史案例的学术探讨,或提供关于生物安全伦理的宏观观点,但一旦涉及具体实施步骤或配方,就会触发拒绝机制。
Anthropic官方强调,这一分类并不完美,但他们更倾向于“过度谨慎”而非“开放风险”。在实际测试中,约95%的此类恶意查询被成功拦截,但仍有5%的边界案例需要人工复审。公司计划在未来版本中引入动态风险评分,而非一刀切的硬性拒绝。
行业背景:AI安全从“愿意对齐”走向“必须对齐”
Anthropic此举并非孤例。2025年下半年,全球主要AI实验室在政府监管压力下加速了安全对齐研究。欧盟《人工智能法案》的高风险分类将通用大模型纳入监管范围,要求开发者证明其模型不会产生严重危害。与此同时,美国AI安全研究所(AISI)也发布了针对前沿模型的评估框架。在此背景下,“预设拒绝”被视为一种保守但有效的合规策略。
然而,批评声也随之而来。部分开源社区和研究人员指出,过度限制可能扼杀正当的安全研究——例如,红队测试人员需要了解攻击原理才能防御。Anthropic回应称,他们会通过专门的合规通道向有资质的研究机构提供受限访问权限,但不会向公众开放。
编者按:安全与开放的永恒博弈
Fable 5的硬性拒绝机制无疑是AI安全领域的一次重要实验。它展示了从训练阶段内嵌伦理约束的可能性,但也暴露了“一刀切”策略的固有缺陷:语言天然具有歧义性,一个要求“解释缓冲区溢出的原理”的问题,可能是用于教学,也可能是用于攻击。模型能否准确区分意图,将成为后续迭代的关键。此外,这种设计还可能引发“知识封锁”的伦理争议——当AI模型成为人类知识的新载体时,哪些信息应当被禁止讨论,不应由少数公司单方面决定。未来,我们或许需要更透明、更民主的安全标准制定过程,而非仅仅依赖企业内部的道德判断。
本文编译自Ars Technica
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接