Meta 暂停与 Mercor 合作:数据泄露危及 AI 行业核心机密

多家顶级 AI 实验室正调查影响领先数据供应商 Mercor 的安全事件,此次数据泄露可能暴露 AI 模型训练的关键数据。Meta 已暂停与 Mercor 的合作,以防范潜在风险。这一事件凸显 AI 行业数据安全隐患,涉及训练方法、模型参数等敏感信息,可能影响整个生态链的安全格局。专家警告,此类泄露或导致竞争优势流失,甚至引发知识产权纠纷。

事件爆发:Meta 紧急叫停合作

据 WIRED 报道,Meta 已暂停与数据供应商 Mercor 的所有合作项目。这一决定源于一场严重的数据泄露事件,该事件直接威胁到 AI 行业的核心机密。Mercor 作为 AI 训练数据的主要提供商,其客户包括多家顶级 AI 实验室。此次安全事故可能暴露了这些实验室的训练数据集、模型优化策略等关键信息,引发行业高度警觉。

Meta 官方声明:“在确认安全风险后,我们已立即暂停与 Mercor 的合作,并启动内部审计。”

事件发生在 2026 年 4 月初,Mercor 报告称其系统遭受入侵,黑客可能窃取了海量数据。初步调查显示,泄露内容包括客户上传的专有数据集,这些数据用于训练大型语言模型(LLM)和多模态 AI 系统。

Mercor 的角色:AI 数据供应链的关键一环

Mercor 是一家成立于 2023 年的初创公司,专注于为 AI 企业提供高质量标注数据和合成数据集。随着 AI 模型规模的爆炸式增长(如 GPT-5、Llama 系列),数据已成为训练瓶颈。Mercor 通过众包平台和自动化工具,帮助客户处理数亿条数据样本,其客户名单涵盖 OpenAI、Anthropic、Google DeepMind 等巨头。

在 AI 行业,数据供应商的重要性不亚于芯片制造商。高质量、去重且多样化的数据集决定了模型的泛化能力和性能。例如,Meta 的 Llama 模型就依赖外部数据来补充开源数据集的不足。然而,这种外包模式也引入了安全隐患:数据在传输和存储过程中易被拦截。

泄露细节与潜在风险

据知情人士透露,此次泄露涉及约 500TB 数据,包括标注后的图像、文本对齐数据和强化学习反馈(RLHF)样本。这些数据不仅包含公开来源的爬取内容,还包括客户专有的合成数据和人类标注结果。更危险的是,部分文件可能记录了训练超参数、提示工程技巧等“黑箱”知识。

如果这些信息落入竞争对手或恶意行为者手中,后果不堪设想:一是知识产权盗用,导致模型复制;二是训练效率泄露,帮助对手缩短研发周期;三是隐私风险,数据中可能嵌入用户交互记录,违反 GDPR 等法规。

多家 AI 实验室已启动联合调查,包括聘请外部安全公司如 Mandiant 进行取证。初步报告显示,攻击者使用供应链攻击向量,可能通过 Mercor 的第三方标注工具植入后门。

Meta 的快速响应与行业连锁反应

Meta 是首批公开表态的公司,其 AI 部门负责人表示,此事件“提醒我们数据安全是基础设施的核心”。公司已隔离所有 Mercor 数据源,并转向内部数据管道。同时,Meta 正在评估是否需重新训练受影响模型。

其他玩家也迅速行动:OpenAI 暂停新数据上传,Anthropic 要求 Mercor 提供完整审计报告。整个行业正反思外包依赖的风险,推动“数据主权”概念——即企业自建数据工厂。

编者按:AI 数据安全的警钟

此次事件并非孤例。回顾历史,2023 年 Stability AI 的数据泄露暴露了 Stable Diffusion 训练细节,2024 年 Scale AI 遭 ransomware 攻击导致服务中断。这些案例凸显 AI 供应链的脆弱性。

从宏观看,随着中美 AI 竞赛加剧,数据已成为战略资产。美国《AI 数据安全法案》草案已拟议,要求关键供应商通过 FedRAMP 认证。中国也在推动“数据要素市场”,强调本土化控制。

展望未来,行业需转向联邦学习、差分隐私和加密计算等技术。同时,Mercor 等公司应投资零信任架构。Meta 的暂停合作是理性之举,但也暴露了生态痛点:谁来守护 AI 的“石油”——数据?

这一事件或加速数据供应商洗牌,推动合成数据(如从视频生成训练集)和自监督学习崛起。AI 从业者应以此为鉴,提升安全意识。

(本文约 1050 字)

本文编译自 WIRED