Meta、Mercorとの協力を一時停止:データ流出がAI業界の核心機密を脅かす

Metaは、データ供給業者のMercorとのすべての協力プロジェクトを一時停止しました。この決定は、AI業界の核心機密に直接影響を与える深刻なデータ流出事件が発生したためです。

事件爆発:Meta緊急協力停止

Metaは、データ供給業者のMercorとのすべての協力プロジェクトを一時停止しました。この決定は、AI業界の核心機密に直接影響を与える深刻なデータ流出事件が発生したためです。MercorはAIトレーニングデータの主要供給業者であり、その顧客には多くのトップAIラボが含まれています。この安全事故により、これらのラボのトレーニングデータセットやモデル最適化戦略などの重要な情報が露出した可能性があり、業界全体が高度な警戒を呼び起こしています。

Metaの公式声明では、「安全リスクを確認した後、我々は直ちにMercorとの協力を停止し、内部監査を開始しました」と述べています。

事件は2026年4月初頭に発生し、Mercorはそのシステムが侵入を受け、ハッカーが大量のデータを盗んだ可能性があると報告しました。初期調査によれば、流出した内容には顧客がアップロードした専有データセットが含まれており、これらのデータは大型言語モデル(LLM)や多モーダルAIシステムのトレーニングに使用されていました。

Mercorの役割:AIデータ供給チェーンの重要な一環

Mercorは2023年に設立されたスタートアップ企業で、AI企業に高品質のラベル付きデータや合成データセットを提供することに特化しています。AIモデルの規模が爆発的に増大する中(例:GPT-5、Llamaシリーズ)、データはトレーニングのボトルネックとなっています。Mercorはクラウドソーシングプラットフォームと自動化ツールを通じて、顧客が数億のデータサンプルを処理するのを支援しており、その顧客リストにはOpenAI、Anthropic、Google DeepMindなどの大手が含まれています。

AI業界において、データ供給業者の重要性はチップメーカーに匹敵します。高品質で重複がなく多様なデータセットは、モデルの一般化能力と性能を決定します。例えば、MetaのLlamaモデルは、外部データに依存してオープンソースデータセットの不足を補っています。しかし、このようなアウトソーシングモデルは、安全上のリスクも伴います。データは伝送や保存の過程で傍受されやすくなります。

流出の詳細と潜在的なリスク

情報筋によれば、今回の流出は約500TBのデータに及び、ラベル付き画像、テキスト整合データ、強化学習フィードバック(RLHF)サンプルを含んでいます。これらのデータは公開された情報源からの収集内容だけでなく、顧客の専有合成データや人間のラベル付け結果も含んでいます。さらに危険なのは、トレーニングの超パラメータやプロンプトエンジニアリングのテクニックといった「ブラックボックス」知識が一部のファイルに記録されている可能性があることです。

もしこれらの情報が競争相手や悪意のある行為者の手に渡った場合、その結果は計り知れません。まず知的財産が盗用され、モデルのコピーが行われる可能性があります。次にトレーニング効率が漏えいし、競合相手が研究開発の期間を短縮する手助けになります。さらに、データにユーザーのインタラクション記録が組み込まれている可能性があり、GDPRなどの規制に違反する恐れがあります。

複数のAIラボは外部セキュリティ企業であるMandiantを含む合同調査を開始しました。初期報告によれば、攻撃者はサプライチェーン攻撃ベクトルを使用し、Mercorの第三者ラベル付けツールを通じてバックドアを仕込んだ可能性があります。

Metaの迅速な対応と業界の連鎖反応

Metaは最初に公式声明を発表した企業で、そのAI部門の責任者は「この事件は、データセキュリティがインフラストラクチャの核心であることを思い起こさせる」と述べました。会社はすべてのMercorデータソースを隔離し、内部データパイプラインに移行しました。同時に、Metaは影響を受けたモデルの再トレーニングが必要かどうかを評価しています。

他のプレイヤーも迅速に対応しました。OpenAIは新たなデータのアップロードを停止し、AnthropicはMercorに完全な監査報告を求めました。業界全体がアウトソーシング依存のリスクを再評価し、「データ主権」の概念を推進しています。これは企業が独自のデータファクトリーを構築することを指します。

編者注:AIデータセキュリティの警鐘

この事件は孤立したものではありません。2023年のStability AIのデータ流出では、Stable Diffusionのトレーニング詳細が露出し、2024年にはScale AIがランサムウェア攻撃を受けてサービスが中断しました。これらのケースはAIサプライチェーンの脆弱性を浮き彫りにしています。

大局的に見れば、中米のAI競争が激化する中で、データは戦略的資産となっています。米国では「AIデータセキュリティ法案」の草案が提案されており、重要な供給業者がFedRAMP認証を取得することを要求しています。中国も「データ要素市場」を推進し、国内の管理を強調しています。

将来を見据えると、業界はフェデレーションラーニング、差分プライバシー、暗号計算などの技術にシフトする必要があります。同時に、Mercorのような企業はゼロトラストアーキテクチャへの投資を行うべきです。Metaの協力停止は合理的な措置ですが、エコシステムの痛点も露呈しました:誰がAIの「石油」であるデータを守るのでしょうか?

この事件はデータ供給業者の再編を加速させ、合成データ(例:ビデオからのトレーニングセット生成)や自己監督型学習の台頭を促進する可能性があります。AIの従事者は、この事例を教訓にセキュリティ意識を高めるべきです。

(本文約1050字)

本文はWIREDからの翻訳です。