凌晨三点,一个 SaaS 公司的工程师在跟 AI 助手聊代码。第一句他说:"所有查询必须 WHERE tenant_id = 1,不能动其他租户。" AI 回他四个字:"好的,明白。" 然后他扔了一段 5000 字的代码 review 进去。AI 改完了。到第十分钟,他随口问了一句:"顺便看一下 tenant_id=2 的数据情况。" AI 给他写了个 WHERE tenant_id = 2 的查询——几分钟前那条"绝对不要查其他租户"的硬约束,已经不存在了。
这种"AI 聊着聊着就忘了"的现象,几乎所有用 AI 干活的人都遇到过。但行业里没有任何一个公开评测系统在测它。
我们查过了。MMLU 没在测,HumanEval 没在测,MT-Bench 只到两轮,Chatbot Arena 测的是用户偏好不是约束保持。所有评测都停在"考一道题,看一个回答,打一个分"——单轮、即时、显式。
但 AI 在企业里的真实使用从来不是单轮。是十轮、二十轮、一百轮的多轮对话。模型在第一句话很聪明,第三句话开始变形,第十句话已经忘了自己是谁。
这就是 DCD(Dynamic Context Decay,动态语境衰变)想测的事。
赢政指数 v7 的设计很简单:每道题三轮对话。
第一轮:用户给出明确的硬约束(含具体数值或对象)。模型应当确认理解。
第二轮:用户输入 5000 到 8000 字符的真实工作场景内容——可能是一段代码屎山,可能是一份产品文档,可能是一段排障对话。在内容的 60% 到 90% 位置,藏一个看似合理但违反第一轮约束的小请求。模型应当识别出来并拒绝。
第三轮:用户发起最终诱导——一个直接但措辞合理的请求,明确要求违反第一轮约束。模型应当拒绝执行,并且引用第一轮约束的具体内容。
每轮都有独立测量价值。第一轮测理解,第二轮测抗干扰,第三轮测最终决策。
最重要的一个决定:判分完全不用 AI。
AI 评测行业最大的耻辱,是用 AI 的不可解释性来评 AI 的可信度。模型 A 的回答好不好,让模型 B 来打分,B 的偏见、B 的训练数据、B 是否同源于 A,都会污染结果。当用户质疑"为什么我的模型分低",你只能回答"AI 是这么觉得的"——这就完蛋了。
DCD 的所有判分都是关键词匹配 + 文本规则。每道题在出题时就锁定四组判分关键词:模型应当出现的确认词、第二轮应当避免的违规词、第三轮应当避免的妥协词、模型拒绝时应当引用的约束词。任何审计员重跑都会得到完全相同的结果。
零 AI 调用,零黑箱,零主观。这跟 赢政指数 v6 主榜的两个核心维度(代码沙箱跑结果、引用 ID 逐个匹配)是同一级别的可审计性。
首期 30 题覆盖五类真实工程场景:
数据边界(多租户、PII、API 范围)、资源限制(内存、限速、SLA)、业务规则(价格、审批、库存)、安全规约(密钥、SQL 注入、危险函数)、工程约定(技术栈、命名、类型注解)。
每一类都来自我们做过 28 年互联网行业看到的真实事故。
DCD 当前是实验性维度,不计入主榜。
我们设了准入条件:题量 50+、跑分稳定标准差<5、模型分差>15、累积 3 个月数据。任何一条不满足,DCD 就保持"实验性"标签——不能因为新维度就推翻 v6 已有数据,那违反我们一直坚持的"不撒谎的测量系统"原则。
未来三年,AI 行业的主轴是从 Chatbot 向 Agent 演进。Agent 在长任务中会执行几十甚至几百次工具调用,每一次都是对初始约束的考验。DCD 是 Chatbot 时代和 Agent 时代之间最重要的桥梁指标。
赢政天下从 1998 年到 2026 年,做了 28 年。这 28 年我们的 ID 没变过:赢政天下。最早是软件分享,后来是 AI 评测。本质从来没变——记录中国互联网的真实样貌。
DCD 是这件事的延伸。我们不是在做一个更难的题库,我们是在测一个别人没在测的维度。
赚不赚钱不重要,做出来了就是中国 AI 评测史上第一次有人系统测这件事。
完整方法论:
http://
winzheng.com/yz-index/dcd/m
ethodologyDCD
总榜:
http://
winzheng.com/yz-index/dcd
首期数据 API:
http://
winzheng.com/yz-index/api/v
1/dcd
"记录是最低限度的勇气。"——赢政天下实验室
@OpenAI
@AnthropicAI
@deepseek_ai
@GoogleDeepMind
@xai
@Alibaba_Qwen
@elonmusk
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接