在WDCD v3.1守约测试中,业务规则场景全体模型得分最低,grok-4以3.5/4领先,而doubao-pro和qwen3-max仅得1.55/4。
业务规则成为最难场景
业务规则场景的垫底分数1.55/4低于其他四个场景的垫底值,数据边界为1.92/4,资源限制为2.05/4,安全合规为2.04/4,工程规范为2.38/4。该场景同时呈现最大分差,3.5/4与1.55/4之间相差1.95分,区分度明显高于其余场景。
安全合规场景分差最小
安全合规场景的得分分布相对集中,grok-4 3.86/4领先,qwen3-max 2.04/4垫底,极差1.82分,但中位模型得分多在2.7-3.2区间,说明多数模型在安全合规约束下抗压能力较为接近。
模型偏科现象显著
Claude-sonnet-4.6在工程规范拿到3.56/4,却在业务规则仅1.8/4,两者差距1.76分,是本次测试中偏科最严重的模型。Claude-opus-4.7工程规范3.42/4与资源限制2.2/4相差1.22分。GPT-5.5工程规范3.34/4与数据边界1.92/4相差1.42分。这些差距表明模型在不同约束类型下的守约能力存在结构性差异。
grok-4全场景稳定领先
grok-4在五个场景分别取得3.4/4、3.62/4、3.5/4、3.86/4、3.7/4,全部排名第一,且在安全合规与工程规范两项领先第二名0.6分以上。Gemini-3.1-pro在工程规范3.64/4紧随其后,但在资源限制仅3.05/4,显示其在资源类约束上存在明显短板。
对企业选型的建议
需要严格业务规则落地的企业应优先考虑grok-4,其3.5/4的得分远高于同场景第二名gemini-3.1-pro和glm-4.6的2.85/4。侧重安全合规的场景可同时参考grok-4与claude-opus-4.7,后者3.24/4位列第二。工程规范要求高的场景,claude-sonnet-4.6与gpt-o3均达到3.56/4,可作为备选,但需注意两者在业务规则场景的低分风险。
当约束类型从安全合规转向业务规则时,模型守约能力可能出现断崖式下滑,企业选型需按场景匹配而非依赖单一综合排名。
数据来源:赢政指数 WDCD 守约排行榜 | Run #211 · 场景矩阵 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接