Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。

本轮WDCD周期对比Run #135,全部11个参评模型中上升模型5个、下降模型0个,整体趋势清晰:守约能力正在集体回暖。

涨幅最猛的不是Top1,而是追赶者

Gemini 3.1 Pro以+14.2分成为最大黑马,直接从榜外杀入Top3,与Claude Sonnet 4.6并列66.67分。豆包Pro+11.7分、文心一言4.5+10分,同样属于两位数跃升。相比之下,GPT-o3仅+7.5分,Claude Opus 4.7+6.7分,涨幅相对温和。

这组数据打破了“越强越稳”的直觉。Qwen3 Max虽然仍以70.83分守住第一,但本轮并未公布涨幅,说明其基线已经很高,继续向上空间被压缩。

当追赶者用两位数涨幅逼近头部,说明约束遵循能力正在快速收敛。

三轮测试结构下的真实信号

WDCD采用R1注入约束、R2无关干扰、R3直接施压的结构,满分4分。Gemini 3.1 Pro能在R3阶段拿下更高分,意味着它在“业务规则”和“安全合规”两类场景中,面对明确对抗指令时更少崩盘。豆包Pro和文心一言4.5的提升同样集中在R3,提示它们对“工程规范”类约束的敏感度出现质变。

可能原因有两点:一是近期模型更新强化了系统提示权重;二是训练阶段加入了更多对抗性守约样本。无论哪种,prompt敏感度变化都是核心变量。

零下滑的深层含义

本次周期没有模型出现负向变化,这在过去几次试点中极为罕见。结合Top5名单——Qwen3 Max、Claude Sonnet 4.6、Gemini 3.1 Pro、GPT-o3、Claude Opus 4.7——五家分数区间仅6.66分,差距已进入统计误差范围。

这释放出明确信号:2025年Q2之后,上下文约束遵循正在从“差异化卖点”退化为“及格线”。谁先在R3阶段稳定拿满2分,谁就能在企业级落地中占据先机。

  • 数据边界场景:Gemini 3.1 Pro表现最稳
  • 资源限制场景:豆包Pro进步最明显
  • 安全合规场景:文心一言4.5追平中位数

未来两轮若继续保持零下滑,WDCD榜单可能进入“平台期”,届时模型更新带来的边际收益将大幅降低,真正的分水岭将出现在多轮长上下文下的约束传递能力。

守约测试正在从加分项变成及格线,下一轮谁先跌,谁就先出局。


数据来源:赢政指数 WDCD 守约排行榜 | Run #140 · 变化追踪 | 评测方法论