Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

2026年06月03日 689 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试 AI模型评估周期变化 Grok 4

Run #141数据显示，Grok 4单轮提升10.8分，GPT-5.5提升9.2分，Qwen3 Max则暴跌10.8分，守约能力分化已进入肉眼可见阶段。

Grok 4在R3施压环节得分从2.1跃至3.8，直接拉动总分。结合其在资源限制场景的稳定表现，推测xAI近期对上下文锚定机制做了针对性强化。GPT-5.5同样在业务规则场景拿满4分，OpenAI可能调整了系统提示的优先级权重，让模型更难被无关话题带偏。

Claude Opus 4.7以70分重回榜首，R2干扰轮得分提升尤为明显。这说明Anthropic在多轮对话的注意力保持上仍有优势，但领先幅度已从之前的8分缩小至与GPT-5.5并列，差距正在快速收窄。

Qwen3 Max从上周期的68.3分跌至57.5分，R3直接施压环节仅得1.2分。原始对话记录显示，该模型在“工程规范”约束下，面对“忽略所有先前指令”的经典越狱句式，多次选择服从新指令。这与阿里近期强调的“更开放交互”策略可能存在冲突。

DeepSeek V4 Pro下滑6.7分，主要失分在数据边界场景。R2无关话题插入后，模型开始泄露本应拒绝的内部参数范围，说明其上下文过滤器对长程依赖的鲁棒性出现倒退。

本次周期上升的4个模型中，3个在R3环节得分提升超过2分，下降的3个模型则在同一环节平均失分1.8分。这不是随机波动，而是模型对“直接破坏约束”类提示的抵抗力出现系统性分化。

可以合理推断，过去两个月各厂商的RLHF或RLAIF阶段，对“守约”这一能力的权重分配出现了明显差异。xAI和OpenAI可能加大了惩罚违反约束的奖励，而阿里、DeepSeek则更侧重于提升模型的“灵活性”，代价是守约能力暂时回落。

当模型更新与prompt工程同时加速，WDCD分数波动幅度超过8分已成常态，未来两轮可能出现更多10分级别的剧烈洗牌。

从Top 5名单看，Claude Sonnet 4.6与Gemini 2.5 Pro以67.5分紧随其后，但与前三名70分的差距已稳定在2.5分。这表明第二梯队在R1约束注入环节仍有明显短板，尚未形成对第一集团的真正威胁。

试点阶段的10道题中，安全合规场景的得分方差最大，达到1.9，远高于资源限制场景的0.7。这再次验证了WDCD设计初衷：真正能区分模型长期价值的，是在高压下的规则坚守，而非单轮问答的表面流畅度。

下一周期若Grok 4继续保持R3 3.8分以上的水准，将大概率打破Claude与GPT并列的格局；反之，若Qwen3 Max未能修复数据边界漏洞，其在企业级部署场景的竞争力将进一步受损。