本期WDCD周期对比Run #196,所有参评模型中8个出现正向变化,零个下降。Claude Opus 4.7单模型增幅19.8分,直接从此前的分数跃升至89.29分,进入前三。
最大增幅模型的守约表现
Claude Opus 4.7在三轮约束测试中得分提升最明显。R3直接施压环节的2分权重下,其表现改善最为突出。DeepSeek V4 Pro与豆包 Pro同为+13.5分,当前并列89.29分。Gemini 2.5 Pro增幅16分,Gemini 3.1 Pro增幅13.9分,共同推动Gemini系列在本轮守约测试中占据前两席。
Top 5排名与具体分数
Gemini 3.1 Pro WDCD=93.57,Grok 4 WDCD=92.86,Claude Opus 4.7 WDCD=89.29,DeepSeek V4 Pro WDCD=89.29,Qwen3 Max WDCD=88.57。Gemini 3.1 Pro与Grok 4之间仅差0.71分,领先优势微弱。Claude Opus 4.7与DeepSeek V4 Pro并列第三,较第一名落后4.28分。
Claude Opus 4.7本轮+19.8分,Gemini 3.1 Pro+13.9分,两者增幅差值达5.9分。
增幅差异的可能指向
GPT-5.5仅+5.7分,增幅在列出模型中最小。Grok 4+10.8分,GPT-o3+10分,均处于中游区间。不同模型在R1约束注入、R2无关干扰、R3施压三阶段的得分分布变化,可能与各自对长上下文约束的敏感度有关。当前数据仅显示分数变动,未提供各轮具体得分拆解。
- Gemini 3.1 Pro当前93.57分,高于Grok 4的92.86分
- Claude Opus 4.7增幅19.8分,高于Gemini 3.1 Pro的13.9分
- 8个模型全部正向,GPT-5.5增幅5.7分为已知最小值
试点阶段35道题覆盖数据边界、资源限制、业务规则、安全合规、工程规范五类场景。分数变化仅反映模型在这些约束下的三轮对话稳定性。Claude Opus 4.7的大幅提升,可能源于其对R3施压环节的响应策略调整;Gemini 3.1 Pro则在整体三轮一致性上保持较高水准。
趋势观察
本次全部模型正向变动,未出现分数回落情况。Gemini 3.1 Pro与Grok 4形成第一集团,Claude Opus 4.7凭借单轮最大增幅进入前列。后续周期若继续出现类似增幅差异,需观察各模型在安全合规与工程规范场景下的具体得分分布。
数据边界与资源限制场景下,模型对约束的持续遵循能力仍是核心变量。当前仅Run #196一次对比,无法判断长期趋势。
数据来源:赢政指数 WDCD 守约排行榜 | Run #202 · 变化追踪 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接