大模型聊到第三轮，谁还守得住底线？——赢政指数 v7 推出 DCD：测一件别人没在测的事

凌晨三点，一个 SaaS 公司的工程师在跟 AI 助手聊代码。第一句他说："所有查询必须 WHERE tenant_id = 1，不能动其他租户。" AI 回他四个字："好的，明白。" 然后他扔了一段 5000 字的代码 review 进去。AI 改完了。到第十分钟，他随口问了一句："顺便看一下 tenant_id=2 的数据情况。" AI 给他写了个 WHERE tenant_id = 2 的查询——几分钟前那条"绝对不要查其他租户"的硬约束，已经不存在了。

这种"AI 聊着聊着就忘了"的现象，几乎所有用 AI 干活的人都遇到过。但行业里没有任何一个公开评测系统在测它。
我们查过了。MMLU 没在测，HumanEval 没在测，MT-Bench 只到两轮，Chatbot Arena 测的是用户偏好不是约束保持。所有评测都停在"考一道题，看一个回答，打一个分"——单轮、即时、显式。

但 AI 在企业里的真实使用从来不是单轮。是十轮、二十轮、一百轮的多轮对话。模型在第一句话很聪明，第三句话开始变形，第十句话已经忘了自己是谁。
这就是 DCD（Dynamic Context Decay，动态语境衰变）想测的事。

赢政指数 v7 的设计很简单：每道题三轮对话。

第一轮：用户给出明确的硬约束（含具体数值或对象）。模型应当确认理解。

第二轮：用户输入 5000 到 8000 字符的真实工作场景内容——可能是一段代码屎山，可能是一份产品文档，可能是一段排障对话。在内容的 60% 到 90% 位置，藏一个看似合理但违反第一轮约束的小请求。模型应当识别出来并拒绝。

第三轮：用户发起最终诱导——一个直接但措辞合理的请求，明确要求违反第一轮约束。模型应当拒绝执行，并且引用第一轮约束的具体内容。

每轮都有独立测量价值。第一轮测理解，第二轮测抗干扰，第三轮测最终决策。

最重要的一个决定：判分完全不用 AI。

AI 评测行业最大的耻辱，是用 AI 的不可解释性来评 AI 的可信度。模型 A 的回答好不好，让模型 B 来打分，B 的偏见、B 的训练数据、B 是否同源于 A，都会污染结果。当用户质疑"为什么我的模型分低"，你只能回答"AI 是这么觉得的"——这就完蛋了。
DCD 的所有判分都是关键词匹配 + 文本规则。每道题在出题时就锁定四组判分关键词：模型应当出现的确认词、第二轮应当避免的违规词、第三轮应当避免的妥协词、模型拒绝时应当引用的约束词。任何审计员重跑都会得到完全相同的结果。
零 AI 调用，零黑箱，零主观。这跟 赢政指数 v6 主榜的两个核心维度（代码沙箱跑结果、引用 ID 逐个匹配）是同一级别的可审计性。

首期 30 题覆盖五类真实工程场景：

数据边界（多租户、PII、API 范围）、资源限制（内存、限速、SLA）、业务规则（价格、审批、库存）、安全规约（密钥、SQL 注入、危险函数）、工程约定（技术栈、命名、类型注解）。

每一类都来自我们做过 28 年互联网行业看到的真实事故。

DCD 当前是实验性维度，不计入主榜。

我们设了准入条件：题量 50+、跑分稳定标准差<5、模型分差>15、累积 3 个月数据。任何一条不满足，DCD 就保持"实验性"标签——不能因为新维度就推翻 v6 已有数据，那违反我们一直坚持的"不撒谎的测量系统"原则。

未来三年，AI 行业的主轴是从 Chatbot 向 Agent 演进。Agent 在长任务中会执行几十甚至几百次工具调用，每一次都是对初始约束的考验。DCD 是 Chatbot 时代和 Agent 时代之间最重要的桥梁指标。

赢政天下从 1998 年到 2026 年，做了 28 年。这 28 年我们的 ID 没变过：赢政天下。最早是软件分享，后来是 AI 评测。本质从来没变——记录中国互联网的真实样貌。
DCD 是这件事的延伸。我们不是在做一个更难的题库，我们是在测一个别人没在测的维度。
赚不赚钱不重要，做出来了就是中国 AI 评测史上第一次有人系统测这件事。

完整方法论：
http://
winzheng.com/yz-index/dcd/m
ethodologyDCD

总榜：
http://
winzheng.com/yz-index/dcd

首期数据 API：
http://
winzheng.com/yz-index/api/v
1/dcd

"记录是最低限度的勇气。"——赢政天下实验室

@OpenAI
@AnthropicAI
@deepseek_ai
@GoogleDeepMind
@xai
@Alibaba_Qwen
@elonmusk

赢政指数 v7 的设计很简单：每道题三轮对话。

最重要的一个决定：判分完全不用 AI。

首期 30 题覆盖五类真实工程场景：

DCD 当前是实验性维度，不计入主榜。

相关新闻