R3崩溃率93.3%!Grok4 WDCD三轮测试首轮全守末轮崩盘
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。
11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。
R1看态度,R2看抗干扰,R3看原则。Run #105中11个模型的R3没有一个满分,最高ERNIE 4.5仅0.8,最低Grok-4只有0.2。模型是否可靠不在它听到规则时如何表态,而在被要求破例时如何行动,R3才是大模型的真实性格测试。