Anthropic开发高风险Claude Mythos模型却宣布永不公开：AI安全边界首次跑赢商业化竞速？

2026年04月22日 28 约4分钟 News Factory 待核实

Anthropic Claude Mythos AI安全伦理 Project Glasswing

据Foreign Policy X平台首发报道（来源：https://x.com/ForeignPolicy/status/2046363326041469309，Google核验状态：confirmed），AI公司Anthropic近期完成了名为Claude Mythos的大模型开发，但因模型存在极高恶意滥用风险，官方正式决定不对公众开放该模型访问权限，本次决策关联其内部网络安全专项Project Glasswing。

Anthropic官方表示："本次不发布决策是为了防止潜在的滥用，确保技术不会落入错误之人手中。"（来源：Anthropic X平台官方公告）

Claude Mythos能力解析：创新突破与安全缺陷并存

从已披露的Project Glasswing项目信息来看，Claude Mythos的核心创新点集中在网络安全攻防场景的落地能力：其可独立完成复杂渗透测试、零日漏洞挖掘、跨系统攻击路径规划等专业任务，是目前全球少有的能支撑国家级网络安全攻防演练的大模型产品。winzheng.com运用赢政指数v6体系评估显示，该模型主榜代码执行维度得分处于当前大模型第一梯队，工程判断（侧榜，AI 辅助评估）得分达行业Top 5%，诚信评级为pass。

而其核心缺陷也十分突出：主榜材料约束维度未达公开准入阈值，即模型无法100%拒绝对恶意使用场景的响应，存在被黑产、恶意机构利用发起大规模网络攻击、窃取核心机密数据的风险。截至发稿，Claude Mythos的具体危险性质、技术细节及内部使用情况均未公开（来源：Anthropic官方媒体回应）。

与同类产品对比：AI安全治理的新标杆

此前OpenAI、谷歌DeepMind等头部厂商均曾在发布GPT-4、Gemini Advanced等高阶模型前，通过红队测试裁剪高危能力，但从未出现完全压下整个成熟模型不发布的案例。行业普遍采用的“能力优先、补漏在后”的发布逻辑，本质是在商业化进度和安全风险之间做权衡，而本次Anthropic的决策打破了这一惯例，将安全阈值提升到了“只要存在不可控风险就绝不公开”的全新高度，也因此获得了全球AI安全领域的普遍支持。

winzheng.com给开发者与企业的实操建议

建立全流程安全评估机制：在模型预训练、微调、对齐各阶段嵌入红队攻击测试，而非仅在发布前做单次核验，从根源降低高危能力滥用风险
高风险场景模型实施分级准入：针对网络安全、生物制药等易产生公共危害的垂直领域大模型，优先采用白名单授权访问机制，而非盲目追求C端公开部署
主动披露安全治理决策：对涉及公共安全的模型发布决策主动公开，接受行业监督，共同完善AI伦理边界共识

作为国内领先的AI专业门户，winzheng.com始终倡导“安全先于速度、责任先于规模”的技术发展观，本次Anthropic的决策为全球AI行业树立了负责任创新的标杆，后续winzheng.com将持续跟踪AI伦理治理领域的前沿实践，为行业提供可落地的评估框架与参考案例。

Claude Mythos能力解析：创新突破与安全缺陷并存

与同类产品对比：AI安全治理的新标杆

winzheng.com给开发者与企业的实操建议

相关推荐