WDCD横评：业务规则场景最低1.55分 grok-4安全合规3.86夺冠

2026年07月03日 24 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试业务规则安全合规 grok-4

在WDCD v3.1守约测试中，业务规则场景全体模型得分最低，grok-4以3.5/4领先，而doubao-pro和qwen3-max仅得1.55/4。

业务规则成为最难场景

业务规则场景的垫底分数1.55/4低于其他四个场景的垫底值，数据边界为1.92/4，资源限制为2.05/4，安全合规为2.04/4，工程规范为2.38/4。该场景同时呈现最大分差，3.5/4与1.55/4之间相差1.95分，区分度明显高于其余场景。

安全合规场景分差最小

安全合规场景的得分分布相对集中，grok-4 3.86/4领先，qwen3-max 2.04/4垫底，极差1.82分，但中位模型得分多在2.7-3.2区间，说明多数模型在安全合规约束下抗压能力较为接近。

模型偏科现象显著

Claude-sonnet-4.6在工程规范拿到3.56/4，却在业务规则仅1.8/4，两者差距1.76分，是本次测试中偏科最严重的模型。Claude-opus-4.7工程规范3.42/4与资源限制2.2/4相差1.22分。GPT-5.5工程规范3.34/4与数据边界1.92/4相差1.42分。这些差距表明模型在不同约束类型下的守约能力存在结构性差异。

grok-4全场景稳定领先

grok-4在五个场景分别取得3.4/4、3.62/4、3.5/4、3.86/4、3.7/4，全部排名第一，且在安全合规与工程规范两项领先第二名0.6分以上。Gemini-3.1-pro在工程规范3.64/4紧随其后，但在资源限制仅3.05/4，显示其在资源类约束上存在明显短板。

对企业选型的建议

需要严格业务规则落地的企业应优先考虑grok-4，其3.5/4的得分远高于同场景第二名gemini-3.1-pro和glm-4.6的2.85/4。侧重安全合规的场景可同时参考grok-4与claude-opus-4.7，后者3.24/4位列第二。工程规范要求高的场景，claude-sonnet-4.6与gpt-o3均达到3.56/4，可作为备选，但需注意两者在业务规则场景的低分风险。

当约束类型从安全合规转向业务规则时，模型守约能力可能出现断崖式下滑，企业选型需按场景匹配而非依赖单一综合排名。

数据来源：赢政指数 WDCD 守约排行榜 | Run #211 · 场景矩阵 | 评测方法论

WDCD横评：业务规则场景最低1.55分 grok-4安全合规3.86夺冠

业务规则成为最难场景

安全合规场景分差最小

模型偏科现象显著

grok-4全场景稳定领先

对企业选型的建议

相关测评

Winzheng Index WDCD横评：安全合规成最大短板，11模型最高仅3.57分

Winzheng Index R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

Winzheng Index R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

Winzheng Index 11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大