近日,AI安全公司Anthropic公布一份调查报告,指控中国科技巨头阿里巴巴涉嫌通过大规模账户集群,对其旗舰大语言模型Claude发起系统性攻击,试图窃取模型的核心能力。据Anthropic称,阿里巴巴使用了约25,000个独立账户,在2026年初的几个月内与Claude进行了超过2,880万次交互,平均每个账户进行了超过1,100次对话。这种高频率、高规模的交互模式显然超出了正常使用范畴,被Anthropic内部安全团队标记为“结构化数据采集攻击”。
攻击手法:批量账户与对抗性提示
报告详细描述,这些账户并非一次性集中注册,而是通过分散在全球的代理IP逐步激活,以规避平台的速率限制和异常检测。每次交互中,攻击者会发送精心构造的提示词(prompt),诱导Claude生成包含其内部知识、推理逻辑甚至安全策略的详细输出。例如,部分提示采用“角色扮演”手法,伪装成研究员请求模型逐步解释其训练数据的过滤机制;另一些则直接要求Claude以JSON格式输出其完整的拒绝策略集。Anthropic指出,这种攻击并非随意的“红队测试”,而是有组织、有目的的能力逆向工程。
“这不是普通的API滥用。对手试图系统性重建我们模型的知识图谱和决策边界,其数据量足以训练一个副本模型。”——Anthropic安全团队负责人
背景:特朗普政府的一纸政令
值得注意的是,Anthropic在声明中特别强调,阿里巴巴的行动“明显违背了特朗普政府发布的行政命令”。2025年8月,特朗普签署了一项名为《保护前沿AI模型国家利益》的行政令,明确禁止任何外国实体通过“数据挖掘、逆向工程或大规模连续查询”方式获取美国AI公司未公开的模型能力。该行政令将此类行为定性为“技术间谍活动”,并授权商务部对涉事外国企业实施制裁。分析师认为,Anthropic此刻公开指控,可能是向美国监管机构施压,要求对阿里巴巴启动调查。
阿里巴巴方面目前尚未做出正式回应。但据接近阿里云的消息人士透露,公司一直致力于遵守各国法律法规,且其语音助手及AI产品主要依赖自研的通义千问系列模型。不过,业界普遍认为,若指控属实,这一事件将升级中美科技领域的对抗烈度。
编者按:模型安全走向地缘政治化
这并非大模型第一次遭遇“蒸馏攻击”(Model Distillation Attack),但如此规模且涉及顶级科技公司的案例极为罕见。长期以来,AI公司通过API提供模型能力时,一直面临被窃取的风险——攻击者只需付费调用足够多次数,配合精心设计的提示,就能将目标模型的知识“蒸馏”到自己的模型中。Anthropic宣称其内部监控系统“Claude Shield”在攻击初期即捕捉到异常模式,但攻击者通过不断变换账户代理和提示模板,持续了数周才被完全阻断。这表明即使是拥有最强安全团队的公司,面对国家级背景的对手依然脆弱。
更深层来看,这一事件折射出AI大模型正在成为“数字领土”的新焦点。当特朗普政府将模型能力视为国家战略资产,而中国科技企业又在全球积极推进AI布局时,任何技术摩擦都可能被放大为地缘政治事件。对于行业而言,这或许意味着未来AI模型将不再“公开可用”,而是像核技术一样受到严格的出口管控和访问审计。这不仅会抬高AI研发成本,也可能导致全球AI生态的碎片化。
本文编译自Ars Technica
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接