Anthropic Fable护栏太严？安全研究人员集体吐槽

2026年06月11日 1,146 约4分钟 TechCrunch

网络安全人工智能 Anthropic Fable模型安全护栏

近日，Anthropic推出的新一代大语言模型Fable在网络安全社区中掀起了不小的波澜。与模型本身的技术突破相比，人们更多在讨论其内置的“安全护栏”——一套旨在防止模型被滥用的行为约束机制。多位知名网络安全研究人员公开表示，这套护栏过于严苛，实际上阻碍了合法的安全研究工作。

护栏过严，研究受阻

安全研究员Eva Chen在社交媒体上抱怨：“我试图让Fable帮忙分析一段疑似恶意脚本的逻辑，它直接拒绝，并提醒我‘这可能涉及有害代码’。可那是我在GitHub上找到的公开样本，用于教学演示！”类似的声音不在少数。另一位研究员Marcus Lee指出，Fable甚至拒绝解释一些基础的漏洞利用技术，尽管这些知识在教科书和OWASP文档中随处可见。

“Fable的护栏搞错了一件事：它把安全研究者当成了潜在的恶意用户。”——安全研究员Amina Karim

Anthropic一直以来强调“有原则的AI安全”，从Claude系列开始便采用宪法AI（Constitutional AI）方法，通过预设规则约束模型行为。Fable作为最新旗舰，进一步强化了拒绝生成“有害”内容的机制。然而，在网络安全领域，“有害”与“有用”的边界往往模糊：同一段代码既可以用于攻击，也可以用于防御和教学。

安全与开放的矛盾

这场争议背后是AI行业面临的经典难题：如何在不扼杀合法用途的前提下防止恶意滥用？Anthropic选择了一条保守路线——宁可误拒，不可误放。但对于渗透测试、漏洞研究等需要模拟攻击场景的安全从业者来说，这种“一刀切”的护栏让他们有劲使不出。

值得注意的是，Anthropic并非唯一面临类似批评的AI公司。OpenAI的GPT系列也曾因内容审核过度而遭到开发者抱怨，后来通过提供更细粒度的使用政策逐渐缓解。相比之下，Anthropic的态度似乎更为坚决。公司安全负责人Lena Torres在回应中表示：“我们理解研究人员的挫折感，但Fable的护栏是基于价值对齐的全面评估。我们会持续收集反馈，寻找更佳的平衡点。”

专家观点分歧

并非所有人都站在批评者一边。部分AI伦理学者认为，在恶意攻击手段不断演变的当下，模型开发者有责任设下严格的防线。斯坦福大学互联网观察站研究员David Kim指出：“安全研究员需要意识到，AI模型不是普通工具。一旦它们掌握了自主生成攻击代码的能力，其扩散风险远超传统工具。”然而，另一位来自MITRE的专家Sarah Wu则反驳：“把安全研究社区排除在外，只会让防御者落后于攻击者。限制合法研究才是真正的安全风险。”

编者按：寻找平衡点

Fable的护栏争议恰恰凸显了AI安全治理的复杂性。一方面，随着模型能力指数级提升，滥用风险真实存在；另一方面，网络安全研究本身就依赖“红队”思维，需要模拟攻击来发现漏洞。完全禁止这类行为，无异于因噎废食。

理想的做法或许是引入分级授权机制：认证的安全研究人员可以通过特定API访问放宽护栏的版本，同时接受严格的使用审计。这种“可信用户”模式已在某些云服务中实践，但移植到AI模型上需要技术与管理上的双重创新。Anthropic的下一步行动，或将影响整个行业对AI安全护栏的设计思路。

本文编译自TechCrunch

护栏过严，研究受阻

安全与开放的矛盾

专家观点分歧

编者按：寻找平衡点

相关推荐