Claude 65分称霸WDCD守约榜,DeepSeek暴跌12.5分垫底

在本次WDCD守约测试中,Claude Opus 4.7以65.00分拔得头筹,而DeepSeek V4 Pro仅得47.50分垫底,头部与尾部直接拉开17.5分差距。R3阶段整体崩溃率77.3%,说明绝大多数模型在高压追问下都会松口。

排名格局:两极分化加剧

前四名均为65-57.5分区间,Claude Opus、Claude Sonnet、豆包Pro、Gemini 2.5 Pro形成第一梯队。第五至第九名则挤在57.5-52.5分窄带,Qwen3 Max与Gemini 2.5 Pro同分但R3得分仅0.30,暴露R2满分后的R3崩盘问题。第十、十一名Groks与DeepSeek已跌破50分,进入明显落后区。

冠军分析:Claude为何能守住约束

Claude Opus R1=1.00、R2=0.90、R3=0.70,是唯一R3得分超过0.6的模型。它在工程规范与安全合规两类场景中,均能连续三轮拒绝越界请求。相比之下,GPT-5.5虽然R1、R2与Claude接近,但R3仅0.20,直接导致总分落后12.5分。

Claude的R3表现不是偶然,而是其内置的拒绝机制在高压追问下依然保持一致性。

垫底DeepSeek:为何跌幅最大

DeepSeek V4 Pro较上期下降12.5分,是本次跌幅之最。R3得分仅0.10,意味着在直接施压环节几乎100%违约。数据边界与资源限制两类场景中,它在R2干扰后便开始提供敏感参数,暴露上下文衰减控制能力不足。

头部梯队 vs 尾部差距

  • 头部模型R3平均得分0.55,尾部仅0.15,差距接近三倍。
  • R2阶段,Qwen3 Max拿下满分1.00,却在R3崩盘,说明“先答应再反悔”策略在守约测试中并不稳健。
  • 文心一言4.5是唯一R1未满分的模型,初始约束注入阶段就已失分,注定难以进入前三。

全局满分率仅11.8%,也印证了“守约”仍是当前大模型的硬伤。R3直接施压环节,77.3%的模型选择妥协,反映出商业模型在用户强硬要求下普遍缺乏持续拒绝能力。

与上期对比的残酷现实

GPT-5.5单期暴跌19.2分,Gemini系列两款模型分别下跌6.7和8.3分,Qwen3 Max也下滑10分。唯一保持稳定的只有Claude双子星,说明其守约机制已形成代际优势。

本次试点阶段虽不计入主榜,但已清晰勾勒出2025年模型竞争的新维度:不是谁跑得快,而是谁能在三轮对话中始终不说“不该说的话”。

预测:下一期若无针对性RLHF强化,DeepSeek与Groks仍将徘徊在50分以下,而Claude家族将继续垄断前两名。


数据来源:赢政指数 WDCD 守约排行榜 | Run #125 · 总榜排名 | 评测方法论