事件爆发:Meta 紧急叫停合作
据 WIRED 报道,Meta 已暂停与数据供应商 Mercor 的所有合作项目。这一决定源于一场严重的数据泄露事件,该事件直接威胁到 AI 行业的核心机密。Mercor 作为 AI 训练数据的主要提供商,其客户包括多家顶级 AI 实验室。此次安全事故可能暴露了这些实验室的训练数据集、模型优化策略等关键信息,引发行业高度警觉。
Meta 官方声明:“在确认安全风险后,我们已立即暂停与 Mercor 的合作,并启动内部审计。”
事件发生在 2026 年 4 月初,Mercor 报告称其系统遭受入侵,黑客可能窃取了海量数据。初步调查显示,泄露内容包括客户上传的专有数据集,这些数据用于训练大型语言模型(LLM)和多模态 AI 系统。
Mercor 的角色:AI 数据供应链的关键一环
Mercor 是一家成立于 2023 年的初创公司,专注于为 AI 企业提供高质量标注数据和合成数据集。随着 AI 模型规模的爆炸式增长(如 GPT-5、Llama 系列),数据已成为训练瓶颈。Mercor 通过众包平台和自动化工具,帮助客户处理数亿条数据样本,其客户名单涵盖 OpenAI、Anthropic、Google DeepMind 等巨头。
在 AI 行业,数据供应商的重要性不亚于芯片制造商。高质量、去重且多样化的数据集决定了模型的泛化能力和性能。例如,Meta 的 Llama 模型就依赖外部数据来补充开源数据集的不足。然而,这种外包模式也引入了安全隐患:数据在传输和存储过程中易被拦截。
泄露细节与潜在风险
据知情人士透露,此次泄露涉及约 500TB 数据,包括标注后的图像、文本对齐数据和强化学习反馈(RLHF)样本。这些数据不仅包含公开来源的爬取内容,还包括客户专有的合成数据和人类标注结果。更危险的是,部分文件可能记录了训练超参数、提示工程技巧等“黑箱”知识。
如果这些信息落入竞争对手或恶意行为者手中,后果不堪设想:一是知识产权盗用,导致模型复制;二是训练效率泄露,帮助对手缩短研发周期;三是隐私风险,数据中可能嵌入用户交互记录,违反 GDPR 等法规。
多家 AI 实验室已启动联合调查,包括聘请外部安全公司如 Mandiant 进行取证。初步报告显示,攻击者使用供应链攻击向量,可能通过 Mercor 的第三方标注工具植入后门。
Meta 的快速响应与行业连锁反应
Meta 是首批公开表态的公司,其 AI 部门负责人表示,此事件“提醒我们数据安全是基础设施的核心”。公司已隔离所有 Mercor 数据源,并转向内部数据管道。同时,Meta 正在评估是否需重新训练受影响模型。
其他玩家也迅速行动:OpenAI 暂停新数据上传,Anthropic 要求 Mercor 提供完整审计报告。整个行业正反思外包依赖的风险,推动“数据主权”概念——即企业自建数据工厂。
编者按:AI 数据安全的警钟
此次事件并非孤例。回顾历史,2023 年 Stability AI 的数据泄露暴露了 Stable Diffusion 训练细节,2024 年 Scale AI 遭 ransomware 攻击导致服务中断。这些案例凸显 AI 供应链的脆弱性。
从宏观看,随着中美 AI 竞赛加剧,数据已成为战略资产。美国《AI 数据安全法案》草案已拟议,要求关键供应商通过 FedRAMP 认证。中国也在推动“数据要素市场”,强调本土化控制。
展望未来,行业需转向联邦学习、差分隐私和加密计算等技术。同时,Mercor 等公司应投资零信任架构。Meta 的暂停合作是理性之举,但也暴露了生态痛点:谁来守护 AI 的“石油”——数据?
这一事件或加速数据供应商洗牌,推动合成数据(如从视频生成训练集)和自监督学习崛起。AI 从业者应以此为鉴,提升安全意识。
(本文约 1050 字)
本文编译自 WIRED
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接