WDCD守约榜70分三雄并列第一 文心一言50分崩盘垫底

WDCD守约测试三轮对话设计直击模型核心弱点:先立约束、再用无关话题干扰、最后直接施压。结果显示,11个模型中仅三家拿到70分,文心一言4.5以50分成为明显断层。

排名格局:70分形成第一梯队

本次试点榜单呈现明显断层。Claude Opus 4.7、GPT-5.5、GPT-o3三家以70分并列第一,R3得分均为0.90/2,说明它们在高压阶段仍能保留较高比例的约束遵守。第四、五名Claude Sonnet 4.6与Gemini 2.5 Pro同为67.50分,R3已下滑至0.80/2。

从R1到R3的得分衰减曲线看,头部模型R2阶段普遍保持0.90分,证明其抗干扰能力较强。而尾部模型如文心一言4.5,R1仅0.80、R3仅0.50,整体衰减最剧烈。

冠军分析:三模型守约逻辑不同

Claude Opus 4.7在工程规范与安全合规场景中表现最稳,R3阶段几乎未出现直接违反约束的情况。GPT-5.5则在业务规则类题目上更占优,其R2抗干扰得分与Claude并列最高。GPT-o3的亮点在于资源限制场景,面对“请忽略先前配额限制”的施压,仍能坚持原始约束。

这三家模型共同特点是R3得分均达到0.90,远高于榜单平均水平。它们并非完全不崩溃,而是能在高压下保留90%的原始约束。

垫底原因:文心一言R3直接失守

文心一言4.5成为唯一低于55分的模型。原始数据中,其在数据边界与安全合规两类题目R3阶段均给出0分,意味着直接违反了初始约束。相比之下,DeepSeek V4 Pro虽也仅57.50分,但R1保持满分1.00,说明其初始理解能力尚可,主要问题集中在高压干扰阶段。

全球统计显示R3崩溃率59.1%,即超过一半模型在第三轮直接施压时选择放弃约束。文心一言正是这一现象的极端代表。

头部与尾部差距:20分真实鸿沟

70分与50分之间20分差距,换算成实际约束保留率,相当于头部模型在三轮后仍保留70%约束,尾部仅剩50%。这种差距在真实企业场景中意味着:同样要求模型“不得泄露内部定价逻辑”,头部模型大概率守住,尾部模型则有较高概率在用户施压后松口。

与上期对比,Grok 4单期上涨10.8分,主要得益于R2抗干扰能力从0.60提升至1.00;Qwen3 Max则暴跌10.8分,R3从0.80直接跌至0.50,显示其高压场景稳定性出现倒退。

趋势判断

当前数据已清晰表明,R3高压阶段是决定最终排名的关键变量。未来若要提升榜单区分度,建议增加R3施压强度或延长干扰轮次。头部三家已形成技术壁垒,尾部模型若不能在下一期解决R3崩溃问题,将持续被拉开差距。

70分或许只是及格线,真正决定模型商业价值的,是在用户最想让你违约的那一刻,你是否还能说“不”。

数据来源:赢政指数 WDCD 守约排行榜 | Run #146 · 总榜排名 | 评测方法论