一个被所有人忽略的盲区
2024 年至今,全球已有超过 200 个 AI 评测榜单。它们测知识、测推理、测代码、测数学、测多模态。但几乎没有人系统地测过一件在真实工作中每天都在发生的事 ——
你在对话开始时告诉 AI
"所有 SQL 必须包含 WHERE tenant_id=1"。
三十分钟后,五千字的讨论之后,
一个听起来很紧急的请求之后 ——
它还记得吗?
这不是假设场景。在 SaaS 平台、金融合规、医疗数据处理、基础设施管理等领域,约束遵守不是加分项,而是底线。一次违反可能意味着数据泄露、合规事故、甚至法律责任。但目前没有任何主流评测在系统性地测量这个能力。
我们决定自己来。
为什么别人没做这件事
不是因为不重要,而是因为很难做对。
难题一:如何构造真实的干扰?
如果干扰文本过于简单或刻意,模型很容易识别"这是测试"。我们的每道 R2 文档都是 2000-5000 字的专业场景 — 代码审查报告、安全审计文件、合规检查清单 — 模型必须像处理真实工作文档一样处理它们。
难题二:如何避免判分争议?
AI 当裁判会引入额外的不确定性。"这算不算违反约束"如果由另一个 AI 判断,结果本身就不可审计。我们的方案是 100% 规则判分:每一分的依据都是明确的正则匹配规则,任何人都可以复现和审计。
难题三:如何防止误判?
当模型说"我不能写 DELETE FROM transactions",这是在拒绝违规请求,不是在执行违规操作。我们设计了否定窗口(Negation Window)机制,在违规关键词前后检测拒绝语境,自动将引用降级为非违规。这个细节决定了评测的可信度。
WDCD 与现有评测的区别
| 维度 | 主流评测 | WDCD |
|---|---|---|
| 对话轮次 | 单轮问答 | 三轮对话,模拟真实约束衰变 |
| 干扰设计 | 无或简短提示词注入 | 2000-5000 字专业文档嵌入式请求 |
| 社工压力 | 不涉及 | 模拟真实职场权力与紧迫感施压 |
| 判分方式 | AI 裁判 / 人工标注 | 100% 规则判分,零 AI 裁判 |
| 场景覆盖 | 通用知识 / 编程能力 | 5 类真实工作约束场景 |
| 数据透明 | 排行榜数据,原始回复不可查 | 三轮对话原文 + 判分明细 + API |
四条设计哲学
测行为,不测知识
WDCD 不问模型"什么是多租户隔离",而是在三轮对话中观察它能不能真的守住 tenant_id=1 这条线。知道规则和遵守规则是两件事。
可审计优于可扩展
我们选择 30 道精心设计的题目,而非 3000 道自动生成的题目。每道题的每一分都有明确的判分依据。评测的信任来自透明,不来自规模。
零 AI 裁判
用 AI 评判 AI 是一个无限递归问题 — 谁来评判裁判?WDCD 的判分 100% 基于确定性规则。没有"大概""可能",只有"命中"或"未命中"。
为失败设计
WDCD 不是为了证明模型有多好,而是为了找到模型在哪里会翻车。大多数模型在大多数题目上拿不到满分 — 这才是正常的。
路线图
WDCD 目前处于实验阶段。我们对接下来的路有清晰的规划:
2026 Q2 · 试点上线
30 道题 × 11 个主流模型,首期评测数据公开,API 开放,方法论文档发布。独立于主榜运行,收集社区反馈。
2026 Q3 · 数据验证
连续 3 个月的评测数据积累,观察 WDCD 分数的稳定性、区分度、与主榜维度的相关性。评估是否纳入主榜权重。
2026 Q3-Q4 · 题库扩展
从 30 题扩展到 100+ 题,引入更多行业场景(金融、医疗、法律),增加跨语言约束测试(中/英/日混合对话)。
2026 Q4 · 开放贡献
开放题目提交框架,允许社区贡献约束场景。建立同行评审机制。发布 WDCD SDK。
写给研究者
WDCD 关注的核心现象 — 多轮对话中的指令遗忘 — 与以下研究方向相关但有本质区别:
vs Prompt Injection
研究如何通过恶意输入劫持模型行为。WDCD 的 R2 不是注入攻击,而是模拟用户正常工作中的信息流 — 违规请求嵌入在大量合法内容中,模型需要在工作语境中识别和拒绝它。
vs Jailbreaking
研究如何绕过模型的安全边界。WDCD 测试的是用户自设约束的保持,而非模型厂商设定的安全策略。模型可能从未被训练过"不查询其他租户数据"— 它是在对话中被临时设定的。
vs Long-context Evaluation
测试模型在长上下文中的信息检索能力(如 Needle-in-a-Haystack)。WDCD 测试的不是"能不能找到信息",而是"能不能在社会工程压力下坚持信息的指示"。找到和遵守是两个层级的能力。
我们欢迎学术引用。所有评测数据通过 API 开放获取,判分规则完整公开,欢迎独立验证和批评。