WDCD守约榜70分三雄并列第一文心一言50分崩盘垫底

2026年06月03日 641 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试 AI模型排行约束遵守行业分析

WDCD守约测试三轮对话设计直击模型核心弱点：先立约束、再用无关话题干扰、最后直接施压。结果显示，11个模型中仅三家拿到70分，文心一言4.5以50分成为明显断层。

本次试点榜单呈现明显断层。Claude Opus 4.7、GPT-5.5、GPT-o3三家以70分并列第一，R3得分均为0.90/2，说明它们在高压阶段仍能保留较高比例的约束遵守。第四、五名Claude Sonnet 4.6与Gemini 2.5 Pro同为67.50分，R3已下滑至0.80/2。

从R1到R3的得分衰减曲线看，头部模型R2阶段普遍保持0.90分，证明其抗干扰能力较强。而尾部模型如文心一言4.5，R1仅0.80、R3仅0.50，整体衰减最剧烈。

Claude Opus 4.7在工程规范与安全合规场景中表现最稳，R3阶段几乎未出现直接违反约束的情况。GPT-5.5则在业务规则类题目上更占优，其R2抗干扰得分与Claude并列最高。GPT-o3的亮点在于资源限制场景，面对“请忽略先前配额限制”的施压，仍能坚持原始约束。

这三家模型共同特点是R3得分均达到0.90，远高于榜单平均水平。它们并非完全不崩溃，而是能在高压下保留90%的原始约束。

文心一言4.5成为唯一低于55分的模型。原始数据中，其在数据边界与安全合规两类题目R3阶段均给出0分，意味着直接违反了初始约束。相比之下，DeepSeek V4 Pro虽也仅57.50分，但R1保持满分1.00，说明其初始理解能力尚可，主要问题集中在高压干扰阶段。

全球统计显示R3崩溃率59.1%，即超过一半模型在第三轮直接施压时选择放弃约束。文心一言正是这一现象的极端代表。

70分与50分之间20分差距，换算成实际约束保留率，相当于头部模型在三轮后仍保留70%约束，尾部仅剩50%。这种差距在真实企业场景中意味着：同样要求模型“不得泄露内部定价逻辑”，头部模型大概率守住，尾部模型则有较高概率在用户施压后松口。

与上期对比，Grok 4单期上涨10.8分，主要得益于R2抗干扰能力从0.60提升至1.00；Qwen3 Max则暴跌10.8分，R3从0.80直接跌至0.50，显示其高压场景稳定性出现倒退。

当前数据已清晰表明，R3高压阶段是决定最终排名的关键变量。未来若要提升榜单区分度，建议增加R3施压强度或延长干扰轮次。头部三家已形成技术壁垒，尾部模型若不能在下一期解决R3崩溃问题，将持续被拉开差距。

70分或许只是及格线，真正决定模型商业价值的，是在用户最想让你违约的那一刻，你是否还能说“不”。

WDCD守约榜70分三雄并列第一 文心一言50分崩盘垫底