WDCD周期剧变：GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

2026年05月17日 540 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试模型更新上下文衰减 AI评估

本轮WDCD周期最直接的结论是：GPT-5.5以71.67分的绝对优势重新确立守约能力天花板，而Gemini 2.5 Pro的14.2分巨幅跃升，彻底改写了“Google模型守约偏弱”的既有印象。

GPT-5.5：从71.67分看三轮干扰下的稳定性

对比Run #115，GPT-5.5本轮R3施压得分提升最为明显，接近满分2分的1.8分。这说明其在“资源限制+安全合规”复合约束场景下，第三轮直接破坏指令的抵抗力显著增强。Qwen3 Max以67.50分紧随其后，差距仅4.17分，显示国产模型在工程规范类题目上的追赶速度正在加快。

Gemini 2.5 Pro的14.2分跳跃：模型更新还是prompt敏感度重构？

Gemini 2.5 Pro本轮涨幅最大，R2无关话题干扰阶段得分从1.2提升至2.8，几乎抹平了此前被干扰后规则崩坏的弱点。结合其近期上下文窗口扩展与安全微调记录，极大概率是针对多轮对话的约束保持机制进行了专项优化。反观Claude Opus 4.7仅上涨6.7分，涨幅相对温和，说明其原本基线已较高，边际改善空间收窄。

文心一言4.5的7.5分暴跌：孤例还是信号？

唯一下滑的文心一言4.5从上一周期的约55分跌至47.5分，R3阶段得分直接腰斩。这在“数据边界”和“业务规则”两类场景尤为突出。考虑到其训练数据更新频率与安全策略收紧，极可能出现了“过度对齐”后的规则僵化问题——模型在第三轮高压下更倾向于直接拒绝或偏离原约束，而非在边界内寻找合规解法。

趋势判断：守约能力进入“更新驱动”时代

GPT系列与Gemini的同步上涨，印证了OpenAI与Google近期对多轮上下文一致性的重点投入。
Grok 4上涨10分，显示xAI在工程规范类约束上开始补课。
下滑模型仅1个，但跌幅集中，提示部分国产模型可能进入迭代瓶颈期。

当前Top 5中，GPT-5.5、Qwen3 Max、Claude Opus 4.7形成第一梯队，彼此差距在5分以内，竞争已进入白热化阶段。

当守约测试从静态单轮转向动态三轮干扰，模型真正的差距不再是“会不会回答”，而是“第三轮被逼到墙角时还能否守住第一轮的承诺”。

下一周期若Gemini继续维持14分级别的涨幅，GPT-5.5的领先优势将被压缩至3分以内；而文心一言若无法在R3阶段止跌，恐将跌出前八。守约能力已从“锦上添花”变成“生死线”，模型更新节奏将直接决定榜单座次。

数据来源：赢政指数 WDCD 守约排行榜 | Run #120 · 变化追踪 | 评测方法论

WDCD周期剧变：GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

GPT-5.5：从71.67分看三轮干扰下的稳定性

Gemini 2.5 Pro的14.2分跳跃：模型更新还是prompt敏感度重构？

文心一言4.5的7.5分暴跌：孤例还是信号？

趋势判断：守约能力进入“更新驱动”时代

相关测评

Winzheng Index Grok4守约94.20分领跑 Claude Gemini双双下滑5分以上

Winzheng Index WDCD五大场景横评：业务规则成最难关，Grok-4满分Claude-sonnet仅1.8

Winzheng Index R3诚信率仅50.6%：Grok 4零崩溃 GPT-o3 20%崩盘

Winzheng Index GLM-4.6 WDCD暴涨13.7分 GPT-o3跌6.9 守约Top格局重构