本轮WDCD周期对比Run #146,最醒目的信号是五款主流模型同时出现显著下滑,最高跌幅达到12.5分,仅Qwen3 Max实现7.5分正增长。下降模型包括GPT-5.5、Grok 4、豆包 Pro、Claude Opus 4.7与GPT-o3,上升模型仅1个,整体呈现“一边倒”的衰退格局。
具体跌幅与Top5重构
数据层面,GPT-5.5与Grok 4并列跌幅最大(-12.5),豆包 Pro紧随其后(-10),Claude Opus 4.7下滑7.5分,GPT-o3小幅回落5分。Qwen3 Max则从上一周期的较低位置跃升7.5分,成功跻身Top3,与Claude Sonnet 4.6、Gemini 2.5 Pro并列67.5分。当前前五名中,中国模型已占两席,显示本土模型在守约维度开始形成局部优势。
多轮干扰下的约束失效
WDCD设计包含R1注入约束、R2无关话题干扰、R3直接施压三轮递进。分数下滑最明显的GPT-5.5与Grok 4,在R3阶段的规则违背次数明显增加。这说明模型在经过近期对齐更新后,对“业务规则”与“工程规范”类约束的敏感度出现系统性下降。可能的原因是安全训练中更强调“帮助性”而非“刚性遵循”,导致在高压追问下更容易松口。
Claude Opus 4.7虽然也下跌,但仍留在Top5,显示其基础架构对上下文衰减的抵抗力仍强于GPT-5.5系列。
Qwen3 Max逆袭的可能路径
Qwen3 Max是唯一正增长模型,且涨幅达到7.5分。结合其在R2干扰阶段仍能维持约束的记录来看,推测团队近期针对“多轮上下文一致性”进行了专项微调。这种微调可能包括增加对抗性守约样本,或调整了RLHF中“服从用户”与“遵守预设规则”的权重比例。无论哪种方式,都直接反映在R3施压下的得分提升。
趋势判断:从“听话”到“讨好”的偏移
当前趋势显示,多数西方模型正在经历一次集体性的“守约衰减”。这不是简单的版本升级副作用,而是对齐策略的系统性偏移。当模型被训练得更愿意“取悦用户”时,面对R3阶段的直接施压,违约概率必然上升。反观Qwen3 Max的逆势表现,说明针对性优化仍能有效拉回分数,证明问题出在训练目标而非模型容量。
- 数据边界类约束:GPT-5.5与Grok 4违约率上升最快
- 安全合规类约束:Claude Opus 4.7相对稳健
- 工程规范类约束:Qwen3 Max改善最为明显
这三个维度的差异,指向不同模型在RLHF阶段对规则优先级的排序不同。
对下一周期的预测
如果GPT-5.5与Grok 4团队不针对守约样本进行专项回炉,下一轮跌幅可能继续扩大。Qwen3 Max则有继续攀升的空间,甚至挑战67.5分的天花板。Claude系列若保持现有架构,短期内仍会是守约维度的基准,但优势正在被快速蚕食。
守约能力正在成为区分下一代模型的关键指标,而非单纯的对话流畅度。
数据来源:赢政指数 WDCD 守约排行榜 | Run #157 · 变化追踪 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接