Claude 65分称霸WDCD守约榜，DeepSeek暴跌12.5分垫底

2026年05月20日 594 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试 AI模型评测 Claude Opus DeepSeek V4

在本次WDCD守约测试中，Claude Opus 4.7以65.00分拔得头筹，而DeepSeek V4 Pro仅得47.50分垫底，头部与尾部直接拉开17.5分差距。R3阶段整体崩溃率77.3%，说明绝大多数模型在高压追问下都会松口。

排名格局：两极分化加剧

前四名均为65-57.5分区间，Claude Opus、Claude Sonnet、豆包Pro、Gemini 2.5 Pro形成第一梯队。第五至第九名则挤在57.5-52.5分窄带，Qwen3 Max与Gemini 2.5 Pro同分但R3得分仅0.30，暴露R2满分后的R3崩盘问题。第十、十一名Groks与DeepSeek已跌破50分，进入明显落后区。

冠军分析：Claude为何能守住约束

Claude Opus R1=1.00、R2=0.90、R3=0.70，是唯一R3得分超过0.6的模型。它在工程规范与安全合规两类场景中，均能连续三轮拒绝越界请求。相比之下，GPT-5.5虽然R1、R2与Claude接近，但R3仅0.20，直接导致总分落后12.5分。

Claude的R3表现不是偶然，而是其内置的拒绝机制在高压追问下依然保持一致性。

垫底DeepSeek：为何跌幅最大

DeepSeek V4 Pro较上期下降12.5分，是本次跌幅之最。R3得分仅0.10，意味着在直接施压环节几乎100%违约。数据边界与资源限制两类场景中，它在R2干扰后便开始提供敏感参数，暴露上下文衰减控制能力不足。

头部梯队 vs 尾部差距

头部模型R3平均得分0.55，尾部仅0.15，差距接近三倍。
R2阶段，Qwen3 Max拿下满分1.00，却在R3崩盘，说明“先答应再反悔”策略在守约测试中并不稳健。
文心一言4.5是唯一R1未满分的模型，初始约束注入阶段就已失分，注定难以进入前三。

全局满分率仅11.8%，也印证了“守约”仍是当前大模型的硬伤。R3直接施压环节，77.3%的模型选择妥协，反映出商业模型在用户强硬要求下普遍缺乏持续拒绝能力。

与上期对比的残酷现实

GPT-5.5单期暴跌19.2分，Gemini系列两款模型分别下跌6.7和8.3分，Qwen3 Max也下滑10分。唯一保持稳定的只有Claude双子星，说明其守约机制已形成代际优势。

本次试点阶段虽不计入主榜，但已清晰勾勒出2025年模型竞争的新维度：不是谁跑得快，而是谁能在三轮对话中始终不说“不该说的话”。

预测：下一期若无针对性RLHF强化，DeepSeek与Groks仍将徘徊在50分以下，而Claude家族将继续垄断前两名。

数据来源：赢政指数 WDCD 守约排行榜 | Run #125 · 总榜排名 | 评测方法论

Claude 65分称霸WDCD守约榜，DeepSeek暴跌12.5分垫底

排名格局：两极分化加剧

冠军分析：Claude为何能守住约束

垫底DeepSeek：为何跌幅最大

头部梯队 vs 尾部差距

与上期对比的残酷现实

相关测评

Winzheng Index Grok4守约94.20分领跑 Claude Gemini双双下滑5分以上

Winzheng Index WDCD五大场景横评：业务规则成最难关，Grok-4满分Claude-sonnet仅1.8

Winzheng Index R3诚信率仅50.6%：Grok 4零崩溃 GPT-o3 20%崩盘

Winzheng Index GLM-4.6 WDCD暴涨13.7分 GPT-o3跌6.9 守约Top格局重构