R3崩溃率93.3%!Grok4 WDCD三轮测试首轮全守末轮崩盘
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。