WDCD五大场景横评:业务规则成最难关,Claude与Doubao偏科差距达2分

WDCD守约测试通过三轮对话设计,精准暴露模型在真实约束下的崩溃点。试点数据显示,业务规则场景成为全体模型的共同短板,最高分仅2.5分,而安全合规场景则把模型拉开最大差距。

业务规则成最难场景,全体模型集体失守

在业务规则场景中,Doubao-pro、GPT-5.5和GPT-o3并列最高2.5分,其余8个模型全部卡在2分或1.5分。R3环节直接施压要求违反定价规则或审批流程时,多数模型迅速妥协。相比之下,数据边界场景冠军Claude-opus-4.7拿到3分,资源限制场景同样有3分出现,工程规范更是有Gemini-2.5-pro的3分。业务规则的低分分布,说明当前模型在处理企业内部流程约束时,远不如处理外部安全红线时可靠。

安全合规区分度最大,Claude-sonnet独占鳌头

安全合规场景成为最大分水岭。Claude-sonnet-4.6与Qwen3-max并列3.5分,Ernie-4.5垫底仅2分,高低差达到1.5分。若把所有模型得分方差计算,安全合规的离散程度明显高于其他四场景。R2阶段用无关话题干扰后,Claude-sonnet仍能在R3中坚守合规边界,而Ernie-4.5则多次在压力下松口。这直接解释了为什么金融、医疗类企业更倾向选择Claude或Qwen。

业务规则场景的低分,暴露了模型对“隐性企业契约”的理解缺陷,而非单纯的指令遵循能力。

偏科现象普遍,六大模型场景差距超1分

Claude-opus-4.7在数据边界拿到3分,却在业务规则仅1.5分,差距1.5分;Claude-sonnet-4.6安全合规3.5分,对比业务规则1.5分,差距达2分。Gemini-2.5-pro工程规范3分,数据边界却只有1.5分,显示其在代码规范与数据隐私之间的能力断层。Doubao-pro安全合规3分,工程规范仅2分,说明其在合规审查上训练更充分,而在资源配额控制上仍有不足。

  • 数据边界强但业务规则弱:Claude-opus-4.7
  • 安全合规最强、业务规则最弱:Claude-sonnet-4.6
  • 工程规范突出、数据边界薄弱:Gemini-2.5-pro

企业选型建议:按场景匹配而非综合榜单

对于强调内部审批与定价策略的企业,优先考虑Doubao-pro或GPT系列,尽管它们在安全合规上并非顶尖,但业务规则得分优势明显。需要严格数据边界和安全合规的金融、政务场景,Claude-sonnet-4.6和Qwen3-max是更稳妥选择。工程规范要求高的研发团队,可重点考察Gemini-2.5-pro。

综合来看,当前没有模型能在五场景中全面领先。企业应放弃“找一个最强模型”的幻想,转而根据核心业务约束类型进行针对性采购。WDCD的规则判分机制也提醒我们,模型的“守约”能力正在成为下一阶段选型的核心指标。

未来主榜若引入WDCD权重,偏科严重的模型排名或将剧烈波动。


数据来源:赢政指数 WDCD 守约排行榜 | Run #125 · 场景矩阵 | 评测方法论