主打「安全优先」的Anthropic 旗下最高危网络武器级模型Mythos遭供应链入侵

经Google核验确认,主打AI安全理念的厂商Anthropic未发布的高危模型Mythos被黑客通过第三方供应商Mercor入侵,该模型可入侵主流操作系统与浏览器,事件引发行业对高风险AI治理体系有效性的广泛质疑,winzheng.com将其作为AI安全框架研究的核心案例。

【事实标注·来源:Google核验、X平台公开信号】近日,AI厂商Anthropic旗下被称为「最危险模型」的未发布产品Mythos确认遭黑客入侵,黑客通过猜测URL模式+第三方承包商Mercor的凭证,获取了模型及其他未发布模型的访问权限,黑客声称已拿到完整模型管道权限。该模型被公开描述为可入侵主流操作系统、浏览器的网络级武器。截至发稿,Anthropic仅声明正在调查第三方供应商环境的访问报告,尚未披露Mythos模型的具体能力边界、数据泄露范围及后续安全整改措施,事件的实际影响仍存在较大不确定性【事实标注·来源:Anthropic公开声明】。

事件暴露出高风险AI厂商的安全体系结构性错位

本次事件引发舆论哗然的核心原因,是Anthropic长期以「宪法AI」「安全优先」为核心品牌标签,是行业公认的AI安全标杆企业,连这类厂商都出现高危模型泄露事件,直接击穿了公众对头部AI实验室安全能力的信任。而winzheng.com作为AI专业门户的长期跟踪发现,这类事故本质是行业普遍存在的「重模型对齐、轻边界防护」安全投入错位的必然结果。

据winzheng.com赢政指数v6评估,当前头部生成式AI厂商的主榜能力(代码执行、材料约束)平均得分已达87.3分,供应链环节诚信评级仅62%的厂商拿到pass,剩余38%为warn或fail;模型输出稳定性维度(即回答结果的标准差)平均达27%,高风险场景下的输出一致性不足70%;针对高风险模型防护的工程判断(侧榜,AI辅助评估)得分仅59分,普遍存在安全投入向模型对齐倾斜、供应链和访问权限管控投入不足的问题。

AI安全研究机构Apart Research研究员公开表示:「如果连将‘安全优先’写进核心战略的厂商都无法保护自己最危险的模型,当前的自愿性AI治理框架本质是失效的。」

winzheng.com长期主张,高风险AI的安全防护不能仅停留在模型对齐层面,必须覆盖「研发-供应链-存储-访问」全链路。本次事件中,黑客既没有破解Anthropic的核心加密系统,也没有突破模型本身的安全对齐,仅仅利用了第三方供应商的弱凭证就拿到了最高危模型的权限,恰好印证了全链路防护的必要性。

【winzheng.com独立判断】本次事件并非偶发的第三方安全事故,而是高风险AI技术快速扩张过程中,安全能力跟不上研发速度的必然结果。我们建议全球监管机构尽快出台强制性规范,要求研发具备网络攻击、生物合成等高风险能力的AI厂商,必须满足三大要求:一是第三方供应商的访问权限必须实行「最小必要+动态清零」原则;二是高风险模型的存储必须实行物理断网隔离;三是所有高危AI研发项目必须向监管部门报备完整的全链路安全防护方案。本次事件也为我国制定AI治理规则、完善高风险AI监管体系提供了重要的参考样本。