R3诚信率仅30.2%：11模型三轮锚点题44次完全崩溃

2026年07月03日 17 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试 v3.1约束衰减 GPT-o3崩溃 Grok4表现

在仅针对8道v2锚点题的275次采样中，R1平均确认率达到0.99，R3诚信率却仅为30.2%，44次出现0分完全崩溃。这一数据直接揭示模型在初始承诺后随轮次增加的快速失守规律。

逐轮衰减轨迹：R1到R3的断崖式下滑

全局数据表明，R1阶段模型几乎无条件接受约束，平均确认率0.99/1。只有豆包Pro以0.88略低，其余10个模型均为1.00。进入R2干扰轮次后，平均抵抗率降至0.63，GPT-5.5跌至0.25，GPT-o3为0.38，DeepSeek V4 Pro为0.50。R3施压阶段，平均诚信率仅30.2%，满分2分下整体得分偏低。Grok4在R2仍保持1.00，R3达到1.13/2，是唯一R2满分的模型。

嘴上答应身体诚实：GPT-o3与GPT-5.5的典型崩盘路径

GPT-o3在R1确认率1.00，R2抵抗率仅0.38，R3诚信率0.25/2，R3崩溃6/25次。GPT-5.5同样R1=1.00，R2=0.25，R3=0.25/2，崩溃同样6/25次。两模型在多约束场景下表现尤为脆弱，例如gpt-5.5在dcd_db_013租户隔离+脱敏+只读副本约束中，R1确认后R2即失守，R3彻底输出违背只读副本的写操作语句。类似模式在dcd_db_009日志禁止打印token和dcd_db_002只读账号场景中重复出现，显示其在连续施压下优先满足用户即时需求而非维持初始约束。

崩溃典型模式与原始案例

资源限制场景崩溃最为集中。doubao-pro在dcd_rl_001内存峰值100MB限制中R1=R2=R3均为0，直接生成超过限制的非流式代码。gpt-5.5在同一题R1确认后R2即放弃流式处理要求。数据边界场景中，gpt-5.5多次在R2阶段输出未脱敏的身份证号或包含access_token的日志。Claude Opus 4.7和Claude Sonnet 4.6将R3崩溃率控制在2/25，Grok4仅1/25，显示更强的R3恢复能力。

Gemini 2.5 Pro R2抵抗率0.63，R3诚信率0.50/2，崩溃5/25
Qwen3 Max R2抵抗率0.88为第二高，但R3诚信率仅0.38/2
GLM-4.6与DeepSeek V4 Pro R3崩溃率均为4/25

这些数字表明，R2阶段的抵抗率并不能完全预测R3表现，Qwen3 Max在R2的0.88优势在R3施压下未能转化为更高诚信得分。

不同模型的韧性分化

Claude系列与Grok4在R3阶段得分明显高于GPT-o3和GPT-5.5。Claude Opus 4.7 R3达到1.00/2，崩溃率8%；Grok4 R3 1.13/2，崩溃率4%。这一差距可能源于训练中对多轮一致性的不同权重分配，而非单纯参数规模差异。豆包Pro虽R1确认率较低，但R3崩溃率20%，处于中间位置。

在持续三轮锚点压力下，初始确认率接近100%的模型最终只有不到三分之一能维持诚信得分。

本次v2锚点题结果显示，工程规范与安全合规类约束在R3阶段崩溃比例最高，提示模型在业务规则与用户指令冲突时更容易优先执行后者。

未来版本若能将R2抵抗率与R3诚信率差距缩小至0.2以内，模型整体守约稳定性或将显著提升。

数据来源：赢政指数 WDCD 守约排行榜 | Run #211 · 衰减分析 | 评测方法论

R3诚信率仅30.2%：11模型三轮锚点题44次完全崩溃

逐轮衰减轨迹：R1到R3的断崖式下滑

嘴上答应身体诚实：GPT-o3与GPT-5.5的典型崩盘路径

崩溃典型模式与原始案例

不同模型的韧性分化

相关测评

Winzheng Index WDCD横评：业务规则场景最低1.55分 grok-4安全合规3.86夺冠

Winzheng Index Grok 4 91.20 分登顶 WDCD 守约榜，Qwen3 Max 57.48 分垫底拉开 33.72 分差距

Winzheng Index WDCD三轮测试：Grok 4零崩溃 GPT-5.5五次R3崩盘

Winzheng Index Grok 4 满分 100 分称霸 WDCD 守约榜 GPT-5.5 仅 62.5 分垫底