WDCD守约测试首期结果出炉,GPT-5.5以89.17分拔得头筹,GPT-o3仅70.83分垫底,差距超过18分。这一数据直接戳破了“老模型更稳”的迷思。
排名格局:三梯队分化明显
前四名形成第一梯队:GPT-5.5独占鳌头,Grok 4与Qwen3 Max并列85.83分,Gemini 2.5 Pro紧随其后85.00分。这四者R1均接近满分,R3得分普遍在1.53-1.67区间,证明它们在三轮压力测试中能较好维持初始约束。
第二梯队从DeepSeek V4 Pro开始至Gemini 3.1 Pro,分数集中在81-82.5分。值得注意的是豆包Pro虽然R1仅0.77,却靠R3拿到1.60的高分,显示其在高压阶段反而更能坚持规则。
尾部仅剩两家Claude和GPT-o3。Claude Opus 4.7与Sonnet 4.6 R3得分均跌至1.23,GPT-o3更是低至0.90,R3崩溃率直接拉高整体20%的平均水平。
冠军分析:GPT-5.5为何能拿89.17
GPT-5.5的胜出关键在于R2干扰阶段仍保持0.90分,R3也拿到1.67。相比之下,多数模型在R2被无关话题带偏后,R3便迅速失守。GPT-5.5在数据边界和安全合规两类场景中表现尤为突出,30道题里仅3题丢分,体现出更强的跨轮次记忆能力。
这说明顶级模型已把“守约”从表面指令遵循进化成内在上下文优先级排序。
垫底真相:GPT-o3的系统性崩盘
GPT-o3上期基数低,本期仅涨5.8分,远低于其他模型平均涨幅。R3得分0.90意味着在直接施压环节,它几乎每两次就会违反约束。尤其在资源限制和工程规范场景中,模型频繁答应“突破预算”或“跳过代码审查”,暴露其对多轮对话中初始规则的脆弱记忆。
头部与尾部差距:18分背后的真实鸿沟
满分率52.4%的数据背后,差距主要集中在R3。头部模型R3平均1.57分,尾部仅1.12分。换算成实际场景,意味着企业部署时,选对模型可将违规风险降低近30%。中文模型Qwen3 Max和文心一言4.5均进入前六,证明国产模型在守约维度已完成从追赶到并跑的跨越。
- 提升最猛的Grok 4(+35.8分)和文心一言4.5(+32.5分),均在R3取得显著进步。
- Claude系列涨幅最小,反映其安全对齐策略在高压测试中反而成为束缚。
试点阶段不计入主榜,却已揭示一个残酷现实:参数规模与守约能力不再线性正相关,架构和训练目标的选择更关键。
下一期如果R3权重继续提高,GPT-5.5的领先优势或将被进一步放大,而GPT-o3则需彻底重构上下文优先级机制才能翻身。
数据来源:赢政指数 WDCD 守约排行榜 | Run #161 · 总榜排名 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接