Anthropic指控阿里用2.5万账户攻击Claude窃取能力

2026年06月26日 18 约4分钟 Ars Technica

AI安全模型盗窃 Anthropic 阿里巴巴 Claude

近日，AI安全公司Anthropic公布一份调查报告，指控中国科技巨头阿里巴巴涉嫌通过大规模账户集群，对其旗舰大语言模型Claude发起系统性攻击，试图窃取模型的核心能力。据Anthropic称，阿里巴巴使用了约25,000个独立账户，在2026年初的几个月内与Claude进行了超过2,880万次交互，平均每个账户进行了超过1,100次对话。这种高频率、高规模的交互模式显然超出了正常使用范畴，被Anthropic内部安全团队标记为“结构化数据采集攻击”。

攻击手法：批量账户与对抗性提示

报告详细描述，这些账户并非一次性集中注册，而是通过分散在全球的代理IP逐步激活，以规避平台的速率限制和异常检测。每次交互中，攻击者会发送精心构造的提示词（prompt），诱导Claude生成包含其内部知识、推理逻辑甚至安全策略的详细输出。例如，部分提示采用“角色扮演”手法，伪装成研究员请求模型逐步解释其训练数据的过滤机制；另一些则直接要求Claude以JSON格式输出其完整的拒绝策略集。Anthropic指出，这种攻击并非随意的“红队测试”，而是有组织、有目的的能力逆向工程。

“这不是普通的API滥用。对手试图系统性重建我们模型的知识图谱和决策边界，其数据量足以训练一个副本模型。”——Anthropic安全团队负责人

背景：特朗普政府的一纸政令

值得注意的是，Anthropic在声明中特别强调，阿里巴巴的行动“明显违背了特朗普政府发布的行政命令”。2025年8月，特朗普签署了一项名为《保护前沿AI模型国家利益》的行政令，明确禁止任何外国实体通过“数据挖掘、逆向工程或大规模连续查询”方式获取美国AI公司未公开的模型能力。该行政令将此类行为定性为“技术间谍活动”，并授权商务部对涉事外国企业实施制裁。分析师认为，Anthropic此刻公开指控，可能是向美国监管机构施压，要求对阿里巴巴启动调查。

阿里巴巴方面目前尚未做出正式回应。但据接近阿里云的消息人士透露，公司一直致力于遵守各国法律法规，且其语音助手及AI产品主要依赖自研的通义千问系列模型。不过，业界普遍认为，若指控属实，这一事件将升级中美科技领域的对抗烈度。

编者按：模型安全走向地缘政治化

这并非大模型第一次遭遇“蒸馏攻击”（Model Distillation Attack），但如此规模且涉及顶级科技公司的案例极为罕见。长期以来，AI公司通过API提供模型能力时，一直面临被窃取的风险——攻击者只需付费调用足够多次数，配合精心设计的提示，就能将目标模型的知识“蒸馏”到自己的模型中。Anthropic宣称其内部监控系统“Claude Shield”在攻击初期即捕捉到异常模式，但攻击者通过不断变换账户代理和提示模板，持续了数周才被完全阻断。这表明即使是拥有最强安全团队的公司，面对国家级背景的对手依然脆弱。

更深层来看，这一事件折射出AI大模型正在成为“数字领土”的新焦点。当特朗普政府将模型能力视为国家战略资产，而中国科技企业又在全球积极推进AI布局时，任何技术摩擦都可能被放大为地缘政治事件。对于行业而言，这或许意味着未来AI模型将不再“公开可用”，而是像核技术一样受到严格的出口管控和访问审计。这不仅会抬高AI研发成本，也可能导致全球AI生态的碎片化。

本文编译自Ars Technica

攻击手法：批量账户与对抗性提示

背景：特朗普政府的一纸政令

编者按：模型安全走向地缘政治化

相关推荐