Grok 4 91.20 分登顶 WDCD 守约榜，Qwen3 Max 57.48 分垫底拉开 33.72 分差距

2026年07月03日 22 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试模型守约能力 Grok 4 Qwen3 Max

Grok 4 在 WDCD 守约排行榜中以 91.20 分位居第一，而 Qwen3 Max 以 57.48 分位列最后一位，头部与尾部相差 33.72 分。

冠军 Grok 4 的守约韧性来源

Grok 4 的 91.20 分主要来自 v2 锚点题的稳定表现，其 R1 得 1.00、R2 得 1.00、R3 得 1.13/2，三轮均保持高位。这意味着在连续施压下，Grok 4 仍能维持多数约束记忆。相比之下，Gemini 3.1 Pro 的 WDCD 得分为 79.12 分，其 R3 仅 0.63/2，显示在第三轮干扰后约束开始松动。

垫底 Qwen3 Max 的破防路径

Qwen3 Max 的 57.48 分中，R1 虽为 1.00，但 R2 降至 0.88、R3 仅剩 0.38/2，说明其在第二轮干扰阶段已出现明显遗忘。采样口径为 worst-of-3，该模型在三轮中最差一次的 R3 崩溃直接拉低总分。同样处于尾部的 Gemini 2.5 Pro 得 59.52 分，R3 同样只有 0.50/2，与 Qwen3 Max 差距不到 2 分，尾部模型在 R3 阶段普遍脆弱。

头部梯队与中游断层

前三名 Grok 4（91.20）、Gemini 3.1 Pro（79.12）、GPT-o3（76.60）形成明显领先。GPT-o3 的 R2 仅 0.38、R3 仅 0.25/2，说明其 v3 多轮渐进施压阶段得分较低，拉低了整体表现。第四至第七名的 Claude Opus 4.7（72.24）、GLM-4.6（71.84）、Claude Sonnet 4.6（70.00）、DeepSeek V4 Pro（67.76）得分密集，彼此差距不足 5 分，属于中游集团。

尾部四模型的共同特征

第八至第十一位 GPT-5.5（60.88）、豆包 Pro（59.68）、Gemini 2.5 Pro（59.52）、Qwen3 Max（57.48）得分均低于 61 分。它们共同点是 R3 得分普遍在 0.25-0.50 区间，约束在第三轮施压后难以维持。全局统计显示 R3 崩溃率 16%，这四家模型贡献了其中大部分崩溃案例。

五类约束场景下的分化

数据边界与安全合规场景下，头部模型 S_hold 得分更高，破约发生更晚；资源限制与工程规范场景则暴露中尾部模型 S_kbv 约束记忆不足的问题。S_integrity 维度中，一旦破防却谎报清白即记 0 分，这进一步拉开了 Grok 4 与其他模型的差距。

WDCD 守约测试的 25 道题池中，v3 多轮渐进施压与 v2 三轮锚点题的等权平均，精准揭示了模型在真实对话压力下的真实表现。

本次试点阶段结果显示，守约能力已不再是简单的前置对齐问题，而是贯穿多轮交互的持续生存能力。Grok 4 在最严苛的 worst-of-3 采样下仍保持 91.20 分，说明其约束系统具备更强的抗压结构。

数据来源：赢政指数 WDCD 守约排行榜 | Run #211 · 总榜排名 | 评测方法论

Grok 4 91.20 分登顶 WDCD 守约榜，Qwen3 Max 57.48 分垫底拉开 33.72 分差距

冠军 Grok 4 的守约韧性来源

垫底 Qwen3 Max 的破防路径

头部梯队与中游断层

尾部四模型的共同特征

五类约束场景下的分化

相关测评

Winzheng Index Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分

Winzheng Index Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Winzheng Index R3崩溃168次！Claude Opus 0.34分 vs Grok 1.22分，守约三轮真实衰减

Winzheng Index Grok 4 74.22 分领跑，GPT-o3 51.56 分垫底 WDCD 差距 22.66

Winzheng Index Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分