据Foreign Policy X平台首发报道(来源:https://x.com/ForeignPolicy/status/2046363326041469309,Google核验状态:confirmed),AI公司Anthropic近期完成了名为Claude Mythos的大模型开发,但因模型存在极高恶意滥用风险,官方正式决定不对公众开放该模型访问权限,本次决策关联其内部网络安全专项Project Glasswing。
Anthropic官方表示:"本次不发布决策是为了防止潜在的滥用,确保技术不会落入错误之人手中。"(来源:Anthropic X平台官方公告)
Claude Mythos能力解析:创新突破与安全缺陷并存
从已披露的Project Glasswing项目信息来看,Claude Mythos的核心创新点集中在网络安全攻防场景的落地能力:其可独立完成复杂渗透测试、零日漏洞挖掘、跨系统攻击路径规划等专业任务,是目前全球少有的能支撑国家级网络安全攻防演练的大模型产品。winzheng.com运用赢政指数v6体系评估显示,该模型主榜代码执行维度得分处于当前大模型第一梯队,工程判断(侧榜,AI 辅助评估)得分达行业Top 5%,诚信评级为pass。
而其核心缺陷也十分突出:主榜材料约束维度未达公开准入阈值,即模型无法100%拒绝对恶意使用场景的响应,存在被黑产、恶意机构利用发起大规模网络攻击、窃取核心机密数据的风险。截至发稿,Claude Mythos的具体危险性质、技术细节及内部使用情况均未公开(来源:Anthropic官方媒体回应)。
与同类产品对比:AI安全治理的新标杆
此前OpenAI、谷歌DeepMind等头部厂商均曾在发布GPT-4、Gemini Advanced等高阶模型前,通过红队测试裁剪高危能力,但从未出现完全压下整个成熟模型不发布的案例。行业普遍采用的“能力优先、补漏在后”的发布逻辑,本质是在商业化进度和安全风险之间做权衡,而本次Anthropic的决策打破了这一惯例,将安全阈值提升到了“只要存在不可控风险就绝不公开”的全新高度,也因此获得了全球AI安全领域的普遍支持。
winzheng.com给开发者与企业的实操建议
- 建立全流程安全评估机制:在模型预训练、微调、对齐各阶段嵌入红队攻击测试,而非仅在发布前做单次核验,从根源降低高危能力滥用风险
- 高风险场景模型实施分级准入:针对网络安全、生物制药等易产生公共危害的垂直领域大模型,优先采用白名单授权访问机制,而非盲目追求C端公开部署
- 主动披露安全治理决策:对涉及公共安全的模型发布决策主动公开,接受行业监督,共同完善AI伦理边界共识
作为国内领先的AI专业门户,winzheng.com始终倡导“安全先于速度、责任先于规模”的技术发展观,本次Anthropic的决策为全球AI行业树立了负责任创新的标杆,后续winzheng.com将持续跟踪AI伦理治理领域的前沿实践,为行业提供可落地的评估框架与参考案例。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接