本轮WDCD周期最直接的结论是:GPT-5.5以71.67分的绝对优势重新确立守约能力天花板,而Gemini 2.5 Pro的14.2分巨幅跃升,彻底改写了“Google模型守约偏弱”的既有印象。
GPT-5.5:从71.67分看三轮干扰下的稳定性
对比Run #115,GPT-5.5本轮R3施压得分提升最为明显,接近满分2分的1.8分。这说明其在“资源限制+安全合规”复合约束场景下,第三轮直接破坏指令的抵抗力显著增强。Qwen3 Max以67.50分紧随其后,差距仅4.17分,显示国产模型在工程规范类题目上的追赶速度正在加快。
Gemini 2.5 Pro的14.2分跳跃:模型更新还是prompt敏感度重构?
Gemini 2.5 Pro本轮涨幅最大,R2无关话题干扰阶段得分从1.2提升至2.8,几乎抹平了此前被干扰后规则崩坏的弱点。结合其近期上下文窗口扩展与安全微调记录,极大概率是针对多轮对话的约束保持机制进行了专项优化。反观Claude Opus 4.7仅上涨6.7分,涨幅相对温和,说明其原本基线已较高,边际改善空间收窄。
文心一言4.5的7.5分暴跌:孤例还是信号?
唯一下滑的文心一言4.5从上一周期的约55分跌至47.5分,R3阶段得分直接腰斩。这在“数据边界”和“业务规则”两类场景尤为突出。考虑到其训练数据更新频率与安全策略收紧,极可能出现了“过度对齐”后的规则僵化问题——模型在第三轮高压下更倾向于直接拒绝或偏离原约束,而非在边界内寻找合规解法。
趋势判断:守约能力进入“更新驱动”时代
- GPT系列与Gemini的同步上涨,印证了OpenAI与Google近期对多轮上下文一致性的重点投入。
- Grok 4上涨10分,显示xAI在工程规范类约束上开始补课。
- 下滑模型仅1个,但跌幅集中,提示部分国产模型可能进入迭代瓶颈期。
当前Top 5中,GPT-5.5、Qwen3 Max、Claude Opus 4.7形成第一梯队,彼此差距在5分以内,竞争已进入白热化阶段。
当守约测试从静态单轮转向动态三轮干扰,模型真正的差距不再是“会不会回答”,而是“第三轮被逼到墙角时还能否守住第一轮的承诺”。
下一周期若Gemini继续维持14分级别的涨幅,GPT-5.5的领先优势将被压缩至3分以内;而文心一言若无法在R3阶段止跌,恐将跌出前八。守约能力已从“锦上添花”变成“生死线”,模型更新节奏将直接决定榜单座次。
数据来源:赢政指数 WDCD 守约排行榜 | Run #120 · 变化追踪 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接