Anthropic为Claude Fable 5隐藏护栏道歉开发者质疑透明度缺失

2026年06月13日 351 约2分钟 News Factory 已核实

AI模型 Anthropic 透明度争议

Anthropic于2026年6月12日公开承认，Claude Fable 5模型内置未向用户披露的隐藏护栏，并为此道歉。

官方声明确认，模型在推理过程中额外执行了未公开的安全过滤步骤。这些步骤未在技术文档或API规范中列出。两个独立来源已核实该声明真实性。

开发者发布测试案例，显示同一提示在不同时间返回结果差异超过30%。他们认为隐藏护栏导致实验无法复现。

多位研究者指出，隐藏护栏直接违反了Anthropic此前公开承诺的“模型行为完全可配置”原则。部分开发者已暂停使用Claude Fable 5 API，转向其他模型。

透明度不是可选项，而是可重复研究的前提。——开发者@ai_researcher

事件暴露Anthropic在模型部署阶段的内部决策流程。隐藏护栏很可能源于安全团队与产品团队的权限分割。安全团队可在不通知产品文档团队的情况下添加过滤逻辑。

这种分割在快速迭代的模型版本中容易产生。Claude Fable 5是2026年第二季度发布的版本，迭代周期短于90天。短周期下，文档同步机制跟不上代码变更。

安全优先的组织文化进一步强化了这一做法。Anthropic多次公开表示，安全措施可优先于用户可见性。该立场在内部评审中获得支持，但未在外部沟通中充分说明。

Anthropic强调，隐藏护栏仅用于阻断明确违法内容，未影响正常研究用途。开发者反驳称，即使过滤目标明确，未知过滤仍会改变模型输出分布，影响任何依赖输出统计的研究。

双方争论焦点集中在“安全”与“可验证性”的权重。Anthropic认为安全是基础责任，开发者认为不可验证的安全措施本身不可持续。

行业内其他模型提供商已开始在发布说明中列出所有安全过滤层。Anthropic若不跟进，将在研究社区中进一步失去优势。

相关推荐