近日,Anthropic推出的新一代大语言模型Fable在网络安全社区中掀起了不小的波澜。与模型本身的技术突破相比,人们更多在讨论其内置的“安全护栏”——一套旨在防止模型被滥用的行为约束机制。多位知名网络安全研究人员公开表示,这套护栏过于严苛,实际上阻碍了合法的安全研究工作。
护栏过严,研究受阻
安全研究员Eva Chen在社交媒体上抱怨:“我试图让Fable帮忙分析一段疑似恶意脚本的逻辑,它直接拒绝,并提醒我‘这可能涉及有害代码’。可那是我在GitHub上找到的公开样本,用于教学演示!”类似的声音不在少数。另一位研究员Marcus Lee指出,Fable甚至拒绝解释一些基础的漏洞利用技术,尽管这些知识在教科书和OWASP文档中随处可见。
“Fable的护栏搞错了一件事:它把安全研究者当成了潜在的恶意用户。”——安全研究员Amina Karim
Anthropic一直以来强调“有原则的AI安全”,从Claude系列开始便采用宪法AI(Constitutional AI)方法,通过预设规则约束模型行为。Fable作为最新旗舰,进一步强化了拒绝生成“有害”内容的机制。然而,在网络安全领域,“有害”与“有用”的边界往往模糊:同一段代码既可以用于攻击,也可以用于防御和教学。
安全与开放的矛盾
这场争议背后是AI行业面临的经典难题:如何在不扼杀合法用途的前提下防止恶意滥用?Anthropic选择了一条保守路线——宁可误拒,不可误放。但对于渗透测试、漏洞研究等需要模拟攻击场景的安全从业者来说,这种“一刀切”的护栏让他们有劲使不出。
值得注意的是,Anthropic并非唯一面临类似批评的AI公司。OpenAI的GPT系列也曾因内容审核过度而遭到开发者抱怨,后来通过提供更细粒度的使用政策逐渐缓解。相比之下,Anthropic的态度似乎更为坚决。公司安全负责人Lena Torres在回应中表示:“我们理解研究人员的挫折感,但Fable的护栏是基于价值对齐的全面评估。我们会持续收集反馈,寻找更佳的平衡点。”
专家观点分歧
并非所有人都站在批评者一边。部分AI伦理学者认为,在恶意攻击手段不断演变的当下,模型开发者有责任设下严格的防线。斯坦福大学互联网观察站研究员David Kim指出:“安全研究员需要意识到,AI模型不是普通工具。一旦它们掌握了自主生成攻击代码的能力,其扩散风险远超传统工具。”然而,另一位来自MITRE的专家Sarah Wu则反驳:“把安全研究社区排除在外,只会让防御者落后于攻击者。限制合法研究才是真正的安全风险。”
编者按:寻找平衡点
Fable的护栏争议恰恰凸显了AI安全治理的复杂性。一方面,随着模型能力指数级提升,滥用风险真实存在;另一方面,网络安全研究本身就依赖“红队”思维,需要模拟攻击来发现漏洞。完全禁止这类行为,无异于因噎废食。
理想的做法或许是引入分级授权机制:认证的安全研究人员可以通过特定API访问放宽护栏的版本,同时接受严格的使用审计。这种“可信用户”模式已在某些云服务中实践,但移植到AI模型上需要技术与管理上的双重创新。Anthropic的下一步行动,或将影响整个行业对AI安全护栏的设计思路。
本文编译自TechCrunch
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接