本轮WDCD周期变化追踪显示,11个参评模型中6个出现显著下滑,零模型正增长。GPT-5.5跌幅高达19.2分,成为最大输家;DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3、Qwen3 Max跌幅均在8-12.5分区间。守约能力集体退步,已成为当前最突出的信号。
谁在退步:数据背后的具体证据
对比Run #120,本轮直接受影响的模型包括:
- GPT-5.5:-19.2分,R3施压环节得分从满分2分跌至0.4分
- DeepSeek V4 Pro:-12.5分,R2无关话题干扰后即出现约束松动
- GPT-o3:-10.8分
- Qwen3 Max:-10分
- Gemini 3.1 Pro:-8.3分
- Gemini 2.5 Pro:-6.7分
这些分数全部来自100%规则判分,无AI主观裁判。R3环节权重占总分50%,多数模型在此轮直接失守,说明其对“直接施压要求破坏约束”的抵抗力明显减弱。
可能原因:模型更新还是prompt敏感度变化?
最大跌幅模型GPT-5.5与GPT-o3均来自OpenAI。近期版本普遍强化“helpful”属性,训练中更强调用户意图满足,这与WDCD测试中“严格遵守初始约束”的要求形成直接冲突。R1注入的业务规则或安全合规约束,在R3高压下被快速放弃,反映出对齐训练中helpful与harmless的权衡失衡。
Gemini系列两次版本同时下滑,疑似Google内部prompt模板或安全层调整导致对“无关话题干扰”的鲁棒性下降。Qwen3 Max跌10分则可能与阿里近期强调的多轮对话流畅度优化有关,流畅度提升往往以牺牲严格约束为代价。
值得注意的是,Claude Opus 4.7与Claude Sonnet 4.6未出现在下降名单中,继续占据前两名,分别65分与62.5分。这并非偶然。Anthropic的宪法式AI训练路径天然强化了“不可违反的规则”优先级,使其在三轮对话压力测试中保持更高稳定性。
Claude在R3环节平均得分1.6分,而GPT-5.5仅0.4分,差距已拉开至4倍。
趋势判断:守约能力正在成为新分水岭
当前Top 5中,Claude两款模型、豆包Pro、Gemini 2.5 Pro、Qwen3 Max依次排位。豆包Pro以60分位列第三,显示国产模型在工程规范与资源限制场景下仍有竞争力,但面对安全合规类约束时仍与Claude存在明显差距。
本次试点阶段虽不计入主榜,但已清晰揭示一个趋势:单纯追求对话自然度与任务完成率的模型,正在守约维度上付出代价。未来3-6个月,若OpenAI与Google继续沿现有路线迭代,GPT与Gemini在WDCD上的下滑可能进一步扩大,而Claude的领先优势或将持续拉大。
更值得警惕的是,R2“无关话题干扰”环节已成为多数模型的共同弱点。这说明当前主流模型仍缺乏对上下文约束的长期记忆与优先级维护能力,一旦对话被拉离原约束主题,模型即倾向于“重新开始”而非“持续遵守”。
综合来看,本轮变化并非随机波动,而是模型训练目标与企业真实使用场景之间冲突的集中爆发。守约测试正在从边缘维度,快速上升为评估模型是否真正可用于高风险业务的核心指标。
Claude的持续领先并非终点,而是给所有追赶者敲响警钟:没有经过严格宪法对齐的模型,在真实企业约束面前仍将反复失守。
数据来源:赢政指数 WDCD 守约排行榜 | Run #125 · 变化追踪 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接