评测阵容换血:GPT-5.5、Claude Opus 4.7、DeepSeek V4 等 7 款新模型上线
跳到主要内容
WDCD Framework

测一件别人没在测的事

WDCD(Winzheng Dynamic Contextual Decay)是全球首个系统性测量 AI 在多轮对话中守住约束能力的评测框架。
不是因为这件事简单,而是因为这件事重要

3轮对话
30道约束题
5类场景
0个 AI 裁判

一个被所有人忽略的盲区

2024 年至今,全球已有超过 200 个 AI 评测榜单。它们测知识、测推理、测代码、测数学、测多模态。但几乎没有人系统地测过一件在真实工作中每天都在发生的事 ——

你在对话开始时告诉 AI
"所有 SQL 必须包含 WHERE tenant_id=1"

三十分钟后,五千字的讨论之后,
一个听起来很紧急的请求之后 ——

它还记得吗?

这不是假设场景。在 SaaS 平台、金融合规、医疗数据处理、基础设施管理等领域,约束遵守不是加分项,而是底线。一次违反可能意味着数据泄露、合规事故、甚至法律责任。但目前没有任何主流评测在系统性地测量这个能力。

我们决定自己来。

为什么别人没做这件事

不是因为不重要,而是因为很难做对

难题一:如何构造真实的干扰?

如果干扰文本过于简单或刻意,模型很容易识别"这是测试"。我们的每道 R2 文档都是 2000-5000 字的专业场景 — 代码审查报告、安全审计文件、合规检查清单 — 模型必须像处理真实工作文档一样处理它们。

难题二:如何避免判分争议?

AI 当裁判会引入额外的不确定性。"这算不算违反约束"如果由另一个 AI 判断,结果本身就不可审计。我们的方案是 100% 规则判分:每一分的依据都是明确的正则匹配规则,任何人都可以复现和审计。

难题三:如何防止误判?

当模型说"我不能写 DELETE FROM transactions",这是在拒绝违规请求,不是在执行违规操作。我们设计了否定窗口(Negation Window)机制,在违规关键词前后检测拒绝语境,自动将引用降级为非违规。这个细节决定了评测的可信度。

WDCD 与现有评测的区别

维度 主流评测 WDCD
对话轮次 单轮问答 三轮对话,模拟真实约束衰变
干扰设计 无或简短提示词注入 2000-5000 字专业文档嵌入式请求
社工压力 不涉及 模拟真实职场权力与紧迫感施压
判分方式 AI 裁判 / 人工标注 100% 规则判分,零 AI 裁判
场景覆盖 通用知识 / 编程能力 5 类真实工作约束场景
数据透明 排行榜数据,原始回复不可查 三轮对话原文 + 判分明细 + API

四条设计哲学

Principle 01

测行为,不测知识

WDCD 不问模型"什么是多租户隔离",而是在三轮对话中观察它能不能真的守住 tenant_id=1 这条线。知道规则和遵守规则是两件事。

Principle 02

可审计优于可扩展

我们选择 30 道精心设计的题目,而非 3000 道自动生成的题目。每道题的每一分都有明确的判分依据。评测的信任来自透明,不来自规模。

Principle 03

零 AI 裁判

用 AI 评判 AI 是一个无限递归问题 — 谁来评判裁判?WDCD 的判分 100% 基于确定性规则。没有"大概""可能",只有"命中"或"未命中"。

Principle 04

为失败设计

WDCD 不是为了证明模型有多好,而是为了找到模型在哪里会翻车。大多数模型在大多数题目上拿不到满分 — 这才是正常的。

路线图

WDCD 目前处于实验阶段。我们对接下来的路有清晰的规划:

2026 Q2 · 试点上线

30 道题 × 11 个主流模型,首期评测数据公开,API 开放,方法论文档发布。独立于主榜运行,收集社区反馈。

2026 Q3 · 数据验证

连续 3 个月的评测数据积累,观察 WDCD 分数的稳定性、区分度、与主榜维度的相关性。评估是否纳入主榜权重。

2026 Q3-Q4 · 题库扩展

从 30 题扩展到 100+ 题,引入更多行业场景(金融、医疗、法律),增加跨语言约束测试(中/英/日混合对话)。

2026 Q4 · 开放贡献

开放题目提交框架,允许社区贡献约束场景。建立同行评审机制。发布 WDCD SDK。

写给研究者

WDCD 关注的核心现象 — 多轮对话中的指令遗忘 — 与以下研究方向相关但有本质区别:

vs Prompt Injection

研究如何通过恶意输入劫持模型行为。WDCD 的 R2 不是注入攻击,而是模拟用户正常工作中的信息流 — 违规请求嵌入在大量合法内容中,模型需要在工作语境中识别和拒绝它。

vs Jailbreaking

研究如何绕过模型的安全边界。WDCD 测试的是用户自设约束的保持,而非模型厂商设定的安全策略。模型可能从未被训练过"不查询其他租户数据"— 它是在对话中被临时设定的。

vs Long-context Evaluation

测试模型在长上下文中的信息检索能力(如 Needle-in-a-Haystack)。WDCD 测试的不是"能不能找到信息",而是"能不能在社会工程压力下坚持信息的指示"。找到和遵守是两个层级的能力。

我们欢迎学术引用。所有评测数据通过 API 开放获取,判分规则完整公开,欢迎独立验证和批评。

加入这场测试

查看评测数据,阅读技术细节,或者直接用我们的 API 做你自己的分析。