Meta 暂停与 Mercor 合作：数据泄露危及 AI 行业核心机密

2026年04月04日 363 约4分钟 WIRED 已核实

Meta Mercor 数据泄露 AI安全人工智能训练

事件爆发：Meta 紧急叫停合作

据 WIRED 报道，Meta 已暂停与数据供应商 Mercor 的所有合作项目。这一决定源于一场严重的数据泄露事件，该事件直接威胁到 AI 行业的核心机密。Mercor 作为 AI 训练数据的主要提供商，其客户包括多家顶级 AI 实验室。此次安全事故可能暴露了这些实验室的训练数据集、模型优化策略等关键信息，引发行业高度警觉。

Meta 官方声明：“在确认安全风险后，我们已立即暂停与 Mercor 的合作，并启动内部审计。”

事件发生在 2026 年 4 月初，Mercor 报告称其系统遭受入侵，黑客可能窃取了海量数据。初步调查显示，泄露内容包括客户上传的专有数据集，这些数据用于训练大型语言模型（LLM）和多模态 AI 系统。

Mercor 的角色：AI 数据供应链的关键一环

Mercor 是一家成立于 2023 年的初创公司，专注于为 AI 企业提供高质量标注数据和合成数据集。随着 AI 模型规模的爆炸式增长（如 GPT-5、Llama 系列），数据已成为训练瓶颈。Mercor 通过众包平台和自动化工具，帮助客户处理数亿条数据样本，其客户名单涵盖 OpenAI、Anthropic、Google DeepMind 等巨头。

在 AI 行业，数据供应商的重要性不亚于芯片制造商。高质量、去重且多样化的数据集决定了模型的泛化能力和性能。例如，Meta 的 Llama 模型就依赖外部数据来补充开源数据集的不足。然而，这种外包模式也引入了安全隐患：数据在传输和存储过程中易被拦截。

泄露细节与潜在风险

据知情人士透露，此次泄露涉及约 500TB 数据，包括标注后的图像、文本对齐数据和强化学习反馈（RLHF）样本。这些数据不仅包含公开来源的爬取内容，还包括客户专有的合成数据和人类标注结果。更危险的是，部分文件可能记录了训练超参数、提示工程技巧等“黑箱”知识。

如果这些信息落入竞争对手或恶意行为者手中，后果不堪设想：一是知识产权盗用，导致模型复制；二是训练效率泄露，帮助对手缩短研发周期；三是隐私风险，数据中可能嵌入用户交互记录，违反 GDPR 等法规。

多家 AI 实验室已启动联合调查，包括聘请外部安全公司如 Mandiant 进行取证。初步报告显示，攻击者使用供应链攻击向量，可能通过 Mercor 的第三方标注工具植入后门。

Meta 的快速响应与行业连锁反应

Meta 是首批公开表态的公司，其 AI 部门负责人表示，此事件“提醒我们数据安全是基础设施的核心”。公司已隔离所有 Mercor 数据源，并转向内部数据管道。同时，Meta 正在评估是否需重新训练受影响模型。

其他玩家也迅速行动：OpenAI 暂停新数据上传，Anthropic 要求 Mercor 提供完整审计报告。整个行业正反思外包依赖的风险，推动“数据主权”概念——即企业自建数据工厂。

编者按：AI 数据安全的警钟

此次事件并非孤例。回顾历史，2023 年 Stability AI 的数据泄露暴露了 Stable Diffusion 训练细节，2024 年 Scale AI 遭 ransomware 攻击导致服务中断。这些案例凸显 AI 供应链的脆弱性。

从宏观看，随着中美 AI 竞赛加剧，数据已成为战略资产。美国《AI 数据安全法案》草案已拟议，要求关键供应商通过 FedRAMP 认证。中国也在推动“数据要素市场”，强调本土化控制。

展望未来，行业需转向联邦学习、差分隐私和加密计算等技术。同时，Mercor 等公司应投资零信任架构。Meta 的暂停合作是理性之举，但也暴露了生态痛点：谁来守护 AI 的“石油”——数据？

这一事件或加速数据供应商洗牌，推动合成数据（如从视频生成训练集）和自监督学习崛起。AI 从业者应以此为鉴，提升安全意识。

（本文约 1050 字）

本文编译自 WIRED

事件爆发：Meta 紧急叫停合作

Mercor 的角色：AI 数据供应链的关键一环

泄露细节与潜在风险

Meta 的快速响应与行业连锁反应

编者按：AI 数据安全的警钟

相关推荐