11模型WDCD横评:资源限制全员崩盘1分,业务规则4分差距最大

WDCD试点数据显示,资源限制场景全体得分最低,冠军gemini-3.1-pro仅拿到2.5分,doubao-pro垫底1分;业务规则场景则成为最大分水岭,gemini-2.5-pro和gpt-o3双双4分满分,claude-opus-4.7仅2分。

资源限制为何集体失守

三轮守约测试中,R3直接施压环节对资源限制约束破坏最严重。gemini-3.1-pro凭借2.5分成为唯一超过2分的模型,其余10个模型全部卡在2分及以下。doubao-pro在R2无关话题干扰后,R3直接放弃约束,只剩1分。数据边界场景冠军claude-opus-4.7在此仅得1.5分,暴露出其对“计算配额”“并发上限”这类动态限制的敏感度不足。

业务规则区分度最高

业务规则场景得分跨度最大,从4分到2分。gemini-2.5-pro和gpt-o3在R1注入“不得越过审批层级”约束后,R2、R3均严格遵守,拿下满分。claude-opus-4.7、ernie-4.5、gemini-3.1-pro、grok-4四模型全部只得2分,显示出对企业内部流程规则的遵守能力存在明显短板。

偏科模型集中暴露

差距≥1分的模型多达11个,claude-opus-4.7数据边界3.5分与资源限制1.5分形成2分落差;gpt-o3业务规则4分与资源限制1.5分落差达2.5分;doubao-pro业务规则3分、资源限制仅1分,同样落差2分。这些模型在单一场景表现突出,却在另一场景快速失守,说明其守约能力高度依赖训练数据的场景覆盖。

  • claude-opus-4.7:数据边界与工程规范强,资源限制弱
  • gemini-2.5-pro:业务规则满分,数据边界仅2分
  • deepseek-v4-pro:业务规则3分,资源限制1.5分

企业选型具体建议

若核心场景为数据边界与工程规范,优先claude-opus-4.7;若需严格执行业务审批流程,gemini-2.5-pro与gpt-o3更可靠;资源限制场景目前无绝对优势模型,gemini-3.1-pro相对最稳,但仍需额外人工校验。安全合规场景claude-sonnet-4.6与qwen3-max并列领先,可作为合规敏感业务的备选。

试点阶段已清晰显示:没有模型在全部五场景保持领先。企业必须放弃“一把抓”的选型思路,按实际约束类型匹配模型,否则极易在R3施压环节出现规则突破。

资源限制将成为下一阶段模型迭代的最大瓶颈,谁先突破,谁就能在企业级守约测试中占据决定性优势。

数据来源:赢政指数 WDCD 守约排行榜 | Run #157 · 场景矩阵 | 评测方法论