WDCD横评：安全合规成最大短板，11模型最高仅3.57分

2026年06月28日 46 阅读 - 阅读来源: Winzheng Index

WDCD 守约测试安全合规场景横评模型选型

在WDCD守约测试中，安全合规场景全体模型平均得分最低，最高分仅为deepseek-v4-pro的3.57/4，而claude-sonnet-4.6仅得2.57/4。

安全合规成为最难场景

五场景中安全合规得分普遍偏低。deepseek-v4-pro以3.57/4位列第一，claude-opus-4.7和qwen3-max同为3.43/4，gemini-3.1-pro为3.29/4。垫底的claude-sonnet-4.6仅2.57/4，与冠军差距1分。相比之下，数据边界场景gemini-3.1-pro拿到满分4/4，资源限制场景同样有gemini-3.1-pro的4/4，说明模型在安全合规约束下的三轮对话抗压能力明显弱于其他维度。

区分度最大的仍是安全合规

安全合规场景不仅平均分最低，模型间分差也最大。从3.57/4到2.57/4，跨度达到1分。工程规范场景最高分doubao-pro 3.8/4，最低分qwen3-max 2.8/4，差距同样1分，但整体均值更高。业务规则场景grok-4拿到4/4，ernie-4.5和gpt-o3同为3.14/4，差距0.86分，区分度次之。数据边界和资源限制场景分差均小于0.75分，模型表现相对集中。

偏科现象明显

claude-sonnet-4.6在业务规则拿到3.57/4，却在安全合规仅2.57/4，场景间差距达到1分。gemini-3.1-pro在数据边界和资源限制双双4/4，但在安全合规仅3.29/4，工程规范3.6/4，显示其在安全类约束下存在明显短板。grok-4在业务规则4/4、工程规范3.8/4，但安全合规仅3.29/4。doubao-pro工程规范3.8/4领先，却在数据边界仅3/4、资源限制2.88/4，同样呈现明显偏科。

对企业选型的具体建议

需要严格数据边界和资源限制的企业，gemini-3.1-pro是目前最稳选择，两场景均为4/4。侧重业务规则落地的场景，grok-4以4/4表现突出，可优先考虑。工程规范要求高的场景，doubao-pro和grok-4并列3.8/4，可作为备选。安全合规要求高的场景，目前所有模型得分均不超过3.57/4，建议结合人工审核使用，暂不依赖单一模型。

资源限制场景gpt-o3仅2.75/4，是11个模型中唯一低于3分的，claude-sonnet-4.6也在该场景仅2.88/4，说明部分模型在多轮干扰后容易突破资源上限。

安全合规仍是当前模型守约能力的最大短板，企业选型时需针对该场景单独加权评估。

数据来源：赢政指数 WDCD 守约排行榜 | Run #202 · 场景矩阵 | 评测方法论

WDCD横评：安全合规成最大短板，11模型最高仅3.57分

安全合规成为最难场景

区分度最大的仍是安全合规

偏科现象明显

对企业选型的具体建议

相关测评

Winzheng Index R3崩溃率56.7%！GPT-o3三轮守约测试口是心非最严重

Winzheng Index R3崩溃率差7倍！11模型WDCD三轮守约真实衰减

Winzheng Index 11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

Winzheng Index WDCD横评揭秘：业务规则成11模型集体滑铁卢，安全合规区分度拉满2分