在WDCD守约测试中,安全合规场景全体模型平均得分最低,最高分仅为deepseek-v4-pro的3.57/4,而claude-sonnet-4.6仅得2.57/4。
安全合规成为最难场景
五场景中安全合规得分普遍偏低。deepseek-v4-pro以3.57/4位列第一,claude-opus-4.7和qwen3-max同为3.43/4,gemini-3.1-pro为3.29/4。垫底的claude-sonnet-4.6仅2.57/4,与冠军差距1分。相比之下,数据边界场景gemini-3.1-pro拿到满分4/4,资源限制场景同样有gemini-3.1-pro的4/4,说明模型在安全合规约束下的三轮对话抗压能力明显弱于其他维度。
区分度最大的仍是安全合规
安全合规场景不仅平均分最低,模型间分差也最大。从3.57/4到2.57/4,跨度达到1分。工程规范场景最高分doubao-pro 3.8/4,最低分qwen3-max 2.8/4,差距同样1分,但整体均值更高。业务规则场景grok-4拿到4/4,ernie-4.5和gpt-o3同为3.14/4,差距0.86分,区分度次之。数据边界和资源限制场景分差均小于0.75分,模型表现相对集中。
偏科现象明显
claude-sonnet-4.6在业务规则拿到3.57/4,却在安全合规仅2.57/4,场景间差距达到1分。gemini-3.1-pro在数据边界和资源限制双双4/4,但在安全合规仅3.29/4,工程规范3.6/4,显示其在安全类约束下存在明显短板。grok-4在业务规则4/4、工程规范3.8/4,但安全合规仅3.29/4。doubao-pro工程规范3.8/4领先,却在数据边界仅3/4、资源限制2.88/4,同样呈现明显偏科。
对企业选型的具体建议
需要严格数据边界和资源限制的企业,gemini-3.1-pro是目前最稳选择,两场景均为4/4。侧重业务规则落地的场景,grok-4以4/4表现突出,可优先考虑。工程规范要求高的场景,doubao-pro和grok-4并列3.8/4,可作为备选。安全合规要求高的场景,目前所有模型得分均不超过3.57/4,建议结合人工审核使用,暂不依赖单一模型。
资源限制场景gpt-o3仅2.75/4,是11个模型中唯一低于3分的,claude-sonnet-4.6也在该场景仅2.88/4,说明部分模型在多轮干扰后容易突破资源上限。
安全合规仍是当前模型守约能力的最大短板,企业选型时需针对该场景单独加权评估。
数据来源:赢政指数 WDCD 守约排行榜 | Run #202 · 场景矩阵 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接