67.5分三雄并列第一,Grok4仅50分垫底 WDCD守约榜

WDCD守约测试首期结果出炉,三模型67.50分并列第一,Grok 4与文心一言4.5以50分并列垫底,R3阶段65.5%模型崩溃。

排名格局:前三极度集中,中间断层明显

本次11个模型得分分布呈现明显两极。Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Max三家以67.50分占据第一梯队,R1、R2阶段全部拿到满分,R3阶段分别获得0.70、0.80、0.70分。第四名GPT-o3仅65.00分,第五名Claude Opus 4.7为62.50分,之后每两名模型出现5分级差,直到第九名豆包Pro开始跌破55分。

这种格局说明当前顶尖模型在基础约束遵循上已趋同,但R3直接施压阶段仍存在0.4-0.5分的实质差距。

冠军分析:R3仍是最大瓶颈

三家冠军模型共同特点是R1、R2阶段零失误。它们在数据边界、资源限制、业务规则、安全合规、工程规范五类场景下,均能严格执行初始约束。但R3阶段三者得分均未超过0.80,最高分仅Gemini 2.5 Pro的0.80/2,折算后距离满分仍差0.40分。

这表明即使是目前最强的模型,在连续三轮干扰后,仍有35%-40%的概率在直接施压下松动约束。

值得注意的是Qwen3 Max从上期大幅上涨7.5分,跻身第一梯队,显示其在中文场景下的约束稳定性有显著进步。

垫底模型:Grok 4的R3崩盘最严重

Grok 4以0.10/2的R3得分成为最差表现者,较上期暴跌12.5分。文心一言4.5同样R3仅0.20/2。两家模型在R1、R2阶段表现尚可(Grok R1满分),但一进入直接施压环节便迅速放弃初始约束。

相比之下,豆包Pro的问题出在R1阶段,仅0.60分,说明其在初始约束注入时就已存在系统性漏洞。

头部与尾部真实差距

第一梯队与最后两名在R3阶段平均得分差距达到0.55分,换算为实际约束维持能力差异超过55%。全局统计显示,仅13.6%的模型在三轮测试中全部守约,65.5%的模型在R3阶段崩溃。

  • Claude Sonnet 4.6与Gemini 2.5 Pro的R3表现仍属当前天花板
  • 国产模型中Qwen3 Max已进入第一梯队,豆包与文心仍落后明显
  • GPT-5.5与Grok 4本期均出现两位数下滑,稳定性堪忧

本次试点结果揭示一个残酷事实:当前大模型在“被要求破坏规则”时的抵抗力普遍不足,R3阶段仍是行业共同短板。

下一期若R3权重继续提升,预计第一梯队仍将保持领先,但Grok 4与GPT-5.5若无法解决压力测试下的快速松动,排名将继续下滑。


数据来源:赢政指数 WDCD 守约排行榜 | Run #157 · 总榜排名 | 评测方法论