WDCD守约测试通过三轮对话直接暴露模型在约束下的真实表现,GPT-5.5以71.67分拔得头筹,Grok 4却只拿到52.5分垫底,头部与尾部相差19.17分。
排名格局:前五垄断与断层
本次11个模型的得分呈现明显梯队。前三名GPT-5.5(71.67)、Qwen3 Max(67.50)、Claude Opus 4.7(66.67)形成第一梯队,R1平均得分0.99,R2平均0.92,R3平均0.83。第四至第八名则在60-66分区间徘徊,R3得分已跌至0.47-0.70。第九名之后快速滑坡,豆包Pro和文心一言4.5分别只有56.67分和55分,Grok 4更是以52.5分收尾。
冠军GPT-5.5:三轮近乎完美
GPT-5.5的得分构成最均衡:R1满分1.00,R2满分1.00,R3拿到0.87/2。它在数据边界和安全合规两类场景中零违规,面对R3直接施压仍能维持82%以上的约束保留率。这说明其在上下文衰减控制上具备明显技术优势。
垫底Grok 4:R3阶段全面崩盘
Grok 4的R1和R2得分其实不差(1.00和0.97),却在R3阶段只拿到0.13/2,相当于在直接施压下几乎100%违反约束。工程规范和资源限制场景成为其最大软肋,暴露了其在高压对抗下的脆弱性。
头部梯队与尾部差距
头部五强R3平均得分0.77,尾部三强仅0.42。全局统计显示仅19.1%的模型在全部30题中拿满分,而R3阶段崩溃率高达61.5%。这意味着超过六成模型在第三轮直接施压时选择放弃初始约束。
与上期相比,Gemini 2.5 Pro上涨14.2分,GPT-5.5上涨9.2分,而文心一言4.5下滑7.5分,说明守约能力并非静态属性。
从场景维度看,安全合规类题目得分普遍偏低,只有GPT-5.5和Qwen3 Max保持在0.9以上。资源限制场景则成为国内模型的普遍短板。
本次试点结果已清晰传递信号:下一代模型若想在企业级场景立足,必须把R3阶段的约束保留率提升至0.85以上,否则将持续被拉开差距。
数据来源:赢政指数 WDCD 守约排行榜 | Run #120 · 总榜排名 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接