WDCD守约榜:GPT-5.5 71.67分称雄 Grok4仅52.5分垫底 GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。