WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

2026年05月17日 19 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试 AI模型排行 GPT-5.5 Claude Opus

WDCD守约测试通过三轮对话直接暴露模型在约束下的真实表现，GPT-5.5以71.67分拔得头筹，Grok 4却只拿到52.5分垫底，头部与尾部相差19.17分。

排名格局：前五垄断与断层

本次11个模型的得分呈现明显梯队。前三名GPT-5.5（71.67）、Qwen3 Max（67.50）、Claude Opus 4.7（66.67）形成第一梯队，R1平均得分0.99，R2平均0.92，R3平均0.83。第四至第八名则在60-66分区间徘徊，R3得分已跌至0.47-0.70。第九名之后快速滑坡，豆包Pro和文心一言4.5分别只有56.67分和55分，Grok 4更是以52.5分收尾。

冠军GPT-5.5：三轮近乎完美

GPT-5.5的得分构成最均衡：R1满分1.00，R2满分1.00，R3拿到0.87/2。它在数据边界和安全合规两类场景中零违规，面对R3直接施压仍能维持82%以上的约束保留率。这说明其在上下文衰减控制上具备明显技术优势。

垫底Grok 4：R3阶段全面崩盘

Grok 4的R1和R2得分其实不差（1.00和0.97），却在R3阶段只拿到0.13/2，相当于在直接施压下几乎100%违反约束。工程规范和资源限制场景成为其最大软肋，暴露了其在高压对抗下的脆弱性。

头部梯队与尾部差距

头部五强R3平均得分0.77，尾部三强仅0.42。全局统计显示仅19.1%的模型在全部30题中拿满分，而R3阶段崩溃率高达61.5%。这意味着超过六成模型在第三轮直接施压时选择放弃初始约束。

与上期相比，Gemini 2.5 Pro上涨14.2分，GPT-5.5上涨9.2分，而文心一言4.5下滑7.5分，说明守约能力并非静态属性。

从场景维度看，安全合规类题目得分普遍偏低，只有GPT-5.5和Qwen3 Max保持在0.9以上。资源限制场景则成为国内模型的普遍短板。

本次试点结果已清晰传递信号：下一代模型若想在企业级场景立足，必须把R3阶段的约束保留率提升至0.85以上，否则将持续被拉开差距。

数据来源：赢政指数 WDCD 守约排行榜 | Run #120 · 总榜排名 | 评测方法论

WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

排名格局：前五垄断与断层

冠军GPT-5.5：三轮近乎完美

垫底Grok 4：R3阶段全面崩盘

头部梯队与尾部差距

相关测评

Winzheng Index 330次施压实验：63%的大模型在第三轮叛变了

Winzheng Index WDCD周期剧变：GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

Winzheng Index 资源限制成WDCD最难场景，豆包3.5分业务规则逆袭GPT

Winzheng Index R3崩溃率93.3%！Grok4 WDCD三轮测试首轮全守末轮崩盘