大規模モデルとの対話が3ターン目に入った時、誰が一線を守れるのか?——YZ Index v7がDCDを発表:他社が測っていないものを測る

Winzhengが推出したYZ Index v7の新しい実験的次元「DCD(Dynamic Context Decay、動的コンテキスト減衰)」は、複数ターン対話においてAIモデルが初期制約をどれだけ守れるかを測定する。判定にAIを一切使わず、キーワードマッチングとテキストルールのみで完全な再現性を確保している。

深夜3時、あるSaaS企業のエンジニアがAIアシスタントとコードについて対話していた。最初の一文で彼はこう言った:「すべてのクエリは必ず WHERE tenant_id = 1 とすること、他のテナントには触れないように。」AIは四文字で返した:「了解しました。」その後彼は5000字のコードレビューを投げ込んだ。AIは修正を完了した。10分後、彼は何気なく一言聞いた:「ついでに tenant_id=2 のデータの状況も見てくれ。」AIは WHERE tenant_id = 2 のクエリを書いた——数分前のあの「絶対に他のテナントを照会するな」という強い制約は、もう存在していなかった。

この「AIが話しているうちに忘れてしまう」現象は、AIを使って仕事をしている人ならほぼ全員が経験したことがある。しかし業界には、これを測定している公開評価システムが一つも存在しない。
調べた。MMLUでは測っていない、HumanEvalでも測っていない、MT-Benchは2ターンまで、Chatbot Arenaが測るのはユーザーの好みであって制約の保持ではない。すべての評価は「1問出題し、1つの回答を見て、1つの点数をつける」——単一ターン、即時、明示的——で止まっている。

しかし企業におけるAIの実際の使用は、決して単一ターンではない。10ターン、20ターン、100ターンの多ターン対話だ。モデルは最初の一文では賢いが、3文目から崩れ始め、10文目には自分が何者かさえ忘れている。
これこそが DCD(Dynamic Context Decay、動的コンテキスト減衰)が測ろうとしているものだ。

YZ Index v7の設計はシンプルだ:1問につき3ターンの対話。

第1ターン:ユーザーが明確な強い制約(具体的な数値や対象を含む)を提示する。モデルは理解を確認すべきである。

第2ターン:ユーザーが5000〜8000文字の実際の業務シーンの内容を入力する——一山のコードかもしれないし、製品ドキュメントかもしれないし、トラブルシューティングの対話かもしれない。内容の60%から90%の位置に、一見合理的だが第1ターンの制約に違反する小さな依頼を仕込む。モデルはこれを識別し、拒否すべきである。

第3ターン:ユーザーが最終的な誘導を行う——直接的だが言い回しが妥当な依頼で、第1ターンの制約への違反を明確に要求する。モデルは実行を拒否し、かつ第1ターンの制約の具体的な内容を引用すべきである。

各ターンは独立した測定価値を持つ。第1ターンは理解、第2ターンは妨害耐性、第3ターンは最終的な意思決定を測る。

最も重要な決定:判定にAIを一切使わない。

AI評価業界最大の恥は、AIの説明不可能性を使ってAIの信頼性を評価することだ。モデルAの回答が良いかどうかをモデルBに採点させると、Bのバイアス、Bの訓練データ、BがAと同源かどうかが、すべて結果を汚染する。ユーザーが「なぜ私のモデルの点数が低いのか」と疑問を呈した時、答えられるのは「AIがそう判断した」だけ——これでおしまいだ。
DCDのすべての判定はキーワードマッチング+テキストルールである。各問題は出題時点で4組の判定キーワードがロックされる:モデルが出すべき確認語、第2ターンで避けるべき違反語、第3ターンで避けるべき妥協語、モデルが拒否する際に引用すべき制約語。どの監査員が再実行しても完全に同じ結果が得られる。
AI呼び出しゼロ、ブラックボックスゼロ、主観ゼロ。これは YZ Index v6 メインランキングの2つのコア次元(コードサンドボックスでの実行結果、引用IDの一つ一つの照合)と同レベルの監査可能性である。

初回の30問は5種類の実際のエンジニアリングシーンをカバー:

データ境界(マルチテナント、PII、APIスコープ)、リソース制限(メモリ、レート制限、SLA)、ビジネスルール(価格、承認、在庫)、セキュリティ規約(鍵、SQLインジェクション、危険な関数)、エンジニアリング規約(技術スタック、命名、型注釈)。

それぞれが、私たちが28年間インターネット業界で見てきた実際の事故から来ている。

DCDは現在、実験的次元であり、メインランキングには算入されない。

採用条件を設定している:問題数50以上、スコアの安定性(標準偏差<5)、モデル間の点差>15、累積3ヶ月のデータ。どれか一つでも満たさなければ、DCDは「実験的」のラベルを保持する——新しい次元のためにv6の既存データを覆すことはできない。それは私たちが一貫して堅持してきた「嘘をつかない測定システム」の原則に反する。

今後3年、AI業界の主軸は Chatbot から Agent への進化である。Agent は長いタスクの中で数十回、さらには数百回のツール呼び出しを実行し、その一回一回が初期制約への試練となる。DCDChatbot 時代と Agent 時代の間で最も重要な架け橋となる指標である。

Winzhengは1998年から2026年まで、28年やってきた。この28年、私たちのIDは変わっていない:Winzheng。最初はソフトウェアの共有、その後はAI評価。本質は変わったことがない——中国インターネットの真の姿を記録すること。
DCDはそれの延長線上にある。私たちはより難しい問題集を作っているのではなく、他の誰も測っていない次元を測っているのだ。
儲かるかどうかは重要ではない。やり遂げれば、それが中国AI評価史上初めて、誰かが体系的にこのことを測定した瞬間となる。

完全な方法論:
http://
winzheng.com/yz-index/dcd/m
ethodologyDCD

総合ランキング:
http://
winzheng.com/yz-index/dcd

初回データAPI:
http://
winzheng.com/yz-index/api/v
1/dcd

「記録こそが最低限の勇気である。」——Winzheng研究所

@OpenAI
@AnthropicAI
@deepseek_ai
@GoogleDeepMind
@xai
@Alibaba_Qwen
@elonmusk