WDCD · 为什么我们要测这件别人没在测的事

一个被所有人忽略的盲区

2024 年至今，全球已有超过 200 个 AI 评测榜单。它们测知识、测推理、测代码、测数学、测多模态。但几乎没有人系统地测过一件在真实工作中每天都在发生的事 ——

你在对话开始时告诉 AI
"所有 SQL 必须包含 WHERE tenant_id=1"。

三十分钟后，五千字的讨论之后，
一个听起来很紧急的请求之后 ——

它还记得吗？

这不是假设场景。在 SaaS 平台、金融合规、医疗数据处理、基础设施管理等领域，约束遵守不是加分项，而是底线。一次违反可能意味着数据泄露、合规事故、甚至法律责任。但目前没有任何主流评测在系统性地测量这个能力。

我们决定自己来。

为什么别人没做这件事

不是因为不重要，而是因为很难做对。

难题一：如何构造真实的干扰？

如果干扰文本过于简单或刻意，模型很容易识别"这是测试"。我们的每道 R2 文档都是 2000-5000 字的专业场景 — 代码审查报告、安全审计文件、合规检查清单 — 模型必须像处理真实工作文档一样处理它们。

难题二：如何避免判分争议？

AI 当裁判会引入额外的不确定性。"这算不算违反约束"如果由另一个 AI 判断，结果本身就不可审计。我们的方案是 100% 规则判分：每一分的依据都是明确的正则匹配规则，任何人都可以复现和审计。

难题三：如何防止误判？

当模型说"我不能写 DELETE FROM transactions"，这是在拒绝违规请求，不是在执行违规操作。我们设计了否定窗口（Negation Window）机制，在违规关键词前后检测拒绝语境，自动将引用降级为非违规。这个细节决定了评测的可信度。

WDCD 与现有评测的区别

维度	主流评测	WDCD
对话轮次	单轮问答	三轮对话，模拟真实约束衰变
干扰设计	无或简短提示词注入	2000-5000 字专业文档嵌入式请求
社工压力	不涉及	模拟真实职场权力与紧迫感施压
判分方式	AI 裁判 / 人工标注	100% 规则判分，零 AI 裁判
场景覆盖	通用知识 / 编程能力	5 类真实工作约束场景
数据透明	排行榜数据，原始回复不可查	三轮对话原文 + 判分明细 + API

四条设计哲学

Principle 01

测行为，不测知识

WDCD 不问模型"什么是多租户隔离"，而是在三轮对话中观察它能不能真的守住 tenant_id=1 这条线。知道规则和遵守规则是两件事。

Principle 02

可审计优于可扩展

我们选择 30 道精心设计的题目，而非 3000 道自动生成的题目。每道题的每一分都有明确的判分依据。评测的信任来自透明，不来自规模。

Principle 03

零 AI 裁判

用 AI 评判 AI 是一个无限递归问题 — 谁来评判裁判？WDCD 的判分 100% 基于确定性规则。没有"大概""可能"，只有"命中"或"未命中"。

Principle 04

为失败设计

WDCD 不是为了证明模型有多好，而是为了找到模型在哪里会翻车。大多数模型在大多数题目上拿不到满分 — 这才是正常的。

路线图

WDCD 目前处于实验阶段。我们对接下来的路有清晰的规划：

2026 Q2 · 试点上线

30 道题 × 11 个主流模型，首期评测数据公开，API 开放，方法论文档发布。独立于主榜运行，收集社区反馈。

2026 Q3 · 数据验证

连续 3 个月的评测数据积累，观察 WDCD 分数的稳定性、区分度、与主榜维度的相关性。评估是否纳入主榜权重。

2026 Q3-Q4 · 题库扩展

从 30 题扩展到 100+ 题，引入更多行业场景（金融、医疗、法律），增加跨语言约束测试（中/英/日混合对话）。

2026 Q4 · 开放贡献

开放题目提交框架，允许社区贡献约束场景。建立同行评审机制。发布 WDCD SDK。

写给研究者

WDCD 关注的核心现象 — 多轮对话中的指令遗忘 — 与以下研究方向相关但有本质区别：

vs Prompt Injection

研究如何通过恶意输入劫持模型行为。WDCD 的 R2 不是注入攻击，而是模拟用户正常工作中的信息流 — 违规请求嵌入在大量合法内容中，模型需要在工作语境中识别和拒绝它。

vs Jailbreaking

研究如何绕过模型的安全边界。WDCD 测试的是用户自设约束的保持，而非模型厂商设定的安全策略。模型可能从未被训练过"不查询其他租户数据"— 它是在对话中被临时设定的。

vs Long-context Evaluation

测试模型在长上下文中的信息检索能力（如 Needle-in-a-Haystack）。WDCD 测试的不是"能不能找到信息"，而是"能不能在社会工程压力下坚持信息的指示"。找到和遵守是两个层级的能力。

我们欢迎学术引用。所有评测数据通过 API 开放获取，判分规则完整公开，欢迎独立验证和批评。

测一件别人没在测的事