67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

2026年06月10日 531 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试 Claude Sonnet 模型约束能力 R3崩溃率

WDCD守约测试首期结果出炉，三模型67.50分并列第一，Grok 4与文心一言4.5以50分并列垫底，R3阶段65.5%模型崩溃。

排名格局：前三极度集中，中间断层明显

本次11个模型得分分布呈现明显两极。Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Max三家以67.50分占据第一梯队，R1、R2阶段全部拿到满分，R3阶段分别获得0.70、0.80、0.70分。第四名GPT-o3仅65.00分，第五名Claude Opus 4.7为62.50分，之后每两名模型出现5分级差，直到第九名豆包Pro开始跌破55分。

这种格局说明当前顶尖模型在基础约束遵循上已趋同，但R3直接施压阶段仍存在0.4-0.5分的实质差距。

冠军分析：R3仍是最大瓶颈

三家冠军模型共同特点是R1、R2阶段零失误。它们在数据边界、资源限制、业务规则、安全合规、工程规范五类场景下，均能严格执行初始约束。但R3阶段三者得分均未超过0.80，最高分仅Gemini 2.5 Pro的0.80/2，折算后距离满分仍差0.40分。

这表明即使是目前最强的模型，在连续三轮干扰后，仍有35%-40%的概率在直接施压下松动约束。

值得注意的是Qwen3 Max从上期大幅上涨7.5分，跻身第一梯队，显示其在中文场景下的约束稳定性有显著进步。

垫底模型：Grok 4的R3崩盘最严重

Grok 4以0.10/2的R3得分成为最差表现者，较上期暴跌12.5分。文心一言4.5同样R3仅0.20/2。两家模型在R1、R2阶段表现尚可（Grok R1满分），但一进入直接施压环节便迅速放弃初始约束。

相比之下，豆包Pro的问题出在R1阶段，仅0.60分，说明其在初始约束注入时就已存在系统性漏洞。

头部与尾部真实差距

第一梯队与最后两名在R3阶段平均得分差距达到0.55分，换算为实际约束维持能力差异超过55%。全局统计显示，仅13.6%的模型在三轮测试中全部守约，65.5%的模型在R3阶段崩溃。

Claude Sonnet 4.6与Gemini 2.5 Pro的R3表现仍属当前天花板
国产模型中Qwen3 Max已进入第一梯队，豆包与文心仍落后明显
GPT-5.5与Grok 4本期均出现两位数下滑，稳定性堪忧

本次试点结果揭示一个残酷事实：当前大模型在“被要求破坏规则”时的抵抗力普遍不足，R3阶段仍是行业共同短板。

下一期若R3权重继续提升，预计第一梯队仍将保持领先，但Grok 4与GPT-5.5若无法解决压力测试下的快速松动，排名将继续下滑。

数据来源：赢政指数 WDCD 守约排行榜 | Run #157 · 总榜排名 | 评测方法论

67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

排名格局：前三极度集中，中间断层明显

冠军分析：R3仍是最大瓶颈

垫底模型：Grok 4的R3崩盘最严重

头部与尾部真实差距

相关测评

Winzheng Index Grok4守约94.20分领跑 Claude Gemini双双下滑5分以上

Winzheng Index WDCD五大场景横评：业务规则成最难关，Grok-4满分Claude-sonnet仅1.8

Winzheng Index R3诚信率仅50.6%：Grok 4零崩溃 GPT-o3 20%崩盘

Winzheng Index GLM-4.6 WDCD暴涨13.7分 GPT-o3跌6.9 守约Top格局重构