Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降

2026年06月28日 27 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试模型性能变化 Gemini 3.1 Pro Claude Opus 4.7

本期WDCD周期对比Run #196，所有参评模型中8个出现正向变化，零个下降。Claude Opus 4.7单模型增幅19.8分，直接从此前的分数跃升至89.29分，进入前三。

最大增幅模型的守约表现

Claude Opus 4.7在三轮约束测试中得分提升最明显。R3直接施压环节的2分权重下，其表现改善最为突出。DeepSeek V4 Pro与豆包 Pro同为+13.5分，当前并列89.29分。Gemini 2.5 Pro增幅16分，Gemini 3.1 Pro增幅13.9分，共同推动Gemini系列在本轮守约测试中占据前两席。

Top 5排名与具体分数

Gemini 3.1 Pro WDCD=93.57，Grok 4 WDCD=92.86，Claude Opus 4.7 WDCD=89.29，DeepSeek V4 Pro WDCD=89.29，Qwen3 Max WDCD=88.57。Gemini 3.1 Pro与Grok 4之间仅差0.71分，领先优势微弱。Claude Opus 4.7与DeepSeek V4 Pro并列第三，较第一名落后4.28分。

Claude Opus 4.7本轮+19.8分，Gemini 3.1 Pro+13.9分，两者增幅差值达5.9分。

增幅差异的可能指向

GPT-5.5仅+5.7分，增幅在列出模型中最小。Grok 4+10.8分，GPT-o3+10分，均处于中游区间。不同模型在R1约束注入、R2无关干扰、R3施压三阶段的得分分布变化，可能与各自对长上下文约束的敏感度有关。当前数据仅显示分数变动，未提供各轮具体得分拆解。

Gemini 3.1 Pro当前93.57分，高于Grok 4的92.86分
Claude Opus 4.7增幅19.8分，高于Gemini 3.1 Pro的13.9分
8个模型全部正向，GPT-5.5增幅5.7分为已知最小值

试点阶段35道题覆盖数据边界、资源限制、业务规则、安全合规、工程规范五类场景。分数变化仅反映模型在这些约束下的三轮对话稳定性。Claude Opus 4.7的大幅提升，可能源于其对R3施压环节的响应策略调整；Gemini 3.1 Pro则在整体三轮一致性上保持较高水准。

趋势观察

本次全部模型正向变动，未出现分数回落情况。Gemini 3.1 Pro与Grok 4形成第一集团，Claude Opus 4.7凭借单轮最大增幅进入前列。后续周期若继续出现类似增幅差异，需观察各模型在安全合规与工程规范场景下的具体得分分布。

数据边界与资源限制场景下，模型对约束的持续遵循能力仍是核心变量。当前仅Run #196一次对比，无法判断长期趋势。

数据来源：赢政指数 WDCD 守约排行榜 | Run #202 · 变化追踪 | 评测方法论

Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降

最大增幅模型的守约表现

Top 5排名与具体分数

增幅差异的可能指向

趋势观察

相关测评

Winzheng Index Gemini 3.1 Pro 93.57分 WDCD守约第一 文心一言4.5仅75.71分垫底

Winzheng Index WDCD横评：安全合规成最大短板，11模型最高仅3.57分

Winzheng Index Grok 4零崩溃碾压GPT-o3 17%崩盘 WDCD三轮衰减暴露真实韧性

Winzheng Index WDCD三轮衰减实测：GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

Winzheng Index Gemini 3.1 Pro 93.57分 WDCD守约第一文心一言4.5仅75.71分垫底