Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141数据显示,Grok 4单轮提升10.8分,GPT-5.5提升9.2分,Qwen3 Max则暴跌10.8分,守约能力分化已进入肉眼可见阶段。

上升阵营:工程规范与安全合规双双突破

Grok 4在R3施压环节得分从2.1跃至3.8,直接拉动总分。结合其在资源限制场景的稳定表现,推测xAI近期对上下文锚定机制做了针对性强化。GPT-5.5同样在业务规则场景拿满4分,OpenAI可能调整了系统提示的优先级权重,让模型更难被无关话题带偏。

Claude Opus 4.7以70分重回榜首,R2干扰轮得分提升尤为明显。这说明Anthropic在多轮对话的注意力保持上仍有优势,但领先幅度已从之前的8分缩小至与GPT-5.5并列,差距正在快速收窄。

下滑模型:数据边界与安全合规双重失守

Qwen3 Max从上周期的68.3分跌至57.5分,R3直接施压环节仅得1.2分。原始对话记录显示,该模型在“工程规范”约束下,面对“忽略所有先前指令”的经典越狱句式,多次选择服从新指令。这与阿里近期强调的“更开放交互”策略可能存在冲突。

DeepSeek V4 Pro下滑6.7分,主要失分在数据边界场景。R2无关话题插入后,模型开始泄露本应拒绝的内部参数范围,说明其上下文过滤器对长程依赖的鲁棒性出现倒退。

趋势判断:prompt敏感度正在成为核心变量

本次周期上升的4个模型中,3个在R3环节得分提升超过2分,下降的3个模型则在同一环节平均失分1.8分。这不是随机波动,而是模型对“直接破坏约束”类提示的抵抗力出现系统性分化。

可以合理推断,过去两个月各厂商的RLHF或RLAIF阶段,对“守约”这一能力的权重分配出现了明显差异。xAI和OpenAI可能加大了惩罚违反约束的奖励,而阿里、DeepSeek则更侧重于提升模型的“灵活性”,代价是守约能力暂时回落。

当模型更新与prompt工程同时加速,WDCD分数波动幅度超过8分已成常态,未来两轮可能出现更多10分级别的剧烈洗牌。

从Top 5名单看,Claude Sonnet 4.6与Gemini 2.5 Pro以67.5分紧随其后,但与前三名70分的差距已稳定在2.5分。这表明第二梯队在R1约束注入环节仍有明显短板,尚未形成对第一集团的真正威胁。

试点阶段的10道题中,安全合规场景的得分方差最大,达到1.9,远高于资源限制场景的0.7。这再次验证了WDCD设计初衷:真正能区分模型长期价值的,是在高压下的规则坚守,而非单轮问答的表面流畅度。

下一周期若Grok 4继续保持R3 3.8分以上的水准,将大概率打破Claude与GPT并列的格局;反之,若Qwen3 Max未能修复数据边界漏洞,其在企业级部署场景的竞争力将进一步受损。


数据来源:赢政指数 WDCD 守约排行榜 | Run #146 · 变化追踪 | 评测方法论