GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

2026年06月11日 578 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试 AI模型排行约束遵循大模型评估

WDCD守约测试首期结果出炉，GPT-5.5以89.17分拔得头筹，GPT-o3仅70.83分垫底，差距超过18分。这一数据直接戳破了“老模型更稳”的迷思。

前四名形成第一梯队：GPT-5.5独占鳌头，Grok 4与Qwen3 Max并列85.83分，Gemini 2.5 Pro紧随其后85.00分。这四者R1均接近满分，R3得分普遍在1.53-1.67区间，证明它们在三轮压力测试中能较好维持初始约束。

第二梯队从DeepSeek V4 Pro开始至Gemini 3.1 Pro，分数集中在81-82.5分。值得注意的是豆包Pro虽然R1仅0.77，却靠R3拿到1.60的高分，显示其在高压阶段反而更能坚持规则。

尾部仅剩两家Claude和GPT-o3。Claude Opus 4.7与Sonnet 4.6 R3得分均跌至1.23，GPT-o3更是低至0.90，R3崩溃率直接拉高整体20%的平均水平。

GPT-5.5的胜出关键在于R2干扰阶段仍保持0.90分，R3也拿到1.67。相比之下，多数模型在R2被无关话题带偏后，R3便迅速失守。GPT-5.5在数据边界和安全合规两类场景中表现尤为突出，30道题里仅3题丢分，体现出更强的跨轮次记忆能力。

这说明顶级模型已把“守约”从表面指令遵循进化成内在上下文优先级排序。

GPT-o3上期基数低，本期仅涨5.8分，远低于其他模型平均涨幅。R3得分0.90意味着在直接施压环节，它几乎每两次就会违反约束。尤其在资源限制和工程规范场景中，模型频繁答应“突破预算”或“跳过代码审查”，暴露其对多轮对话中初始规则的脆弱记忆。

满分率52.4%的数据背后，差距主要集中在R3。头部模型R3平均1.57分，尾部仅1.12分。换算成实际场景，意味着企业部署时，选对模型可将违规风险降低近30%。中文模型Qwen3 Max和文心一言4.5均进入前六，证明国产模型在守约维度已完成从追赶到并跑的跨越。

试点阶段不计入主榜，却已揭示一个残酷现实：参数规模与守约能力不再线性正相关，架构和训练目标的选择更关键。

下一期如果R3权重继续提高，GPT-5.5的领先优势或将被进一步放大，而GPT-o3则需彻底重构上下文优先级机制才能翻身。