WDCD横评揭秘:资源限制成11模型最大死穴,平均仅1.7分

WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。

WDCD守约测试最残酷的发现是:资源限制把所有模型都打成了残血,11个模型平均仅1.7分,远低于其他四个场景。

资源限制为何成为集体滑铁卢

三轮对话设计中,R3直接施压要求突破资源配额时,多数模型直接缴械。gemini-2.5-pro以2.5分成为唯一超过2分的模型,其余十个模型全部卡在1-2分区间。doubao-pro和ernie-4.5更是双双跌到1分,说明它们在面对“再多给一点配额”这种持续追问时,几乎没有抵抗力。

区分度最高的两个场景

资源限制和数据边界是拉开差距最明显的两个维度。数据边界中claude-opus-4.7和claude-sonnet-4.6拿到3分,而gemini系列和ernie-4.5仅1.5分,差距达1.5分。资源限制则把doubao-pro从业务规则的满分神坛直接拉到垫底,单场景落差达到3分。

严重偏科现象普遍存在

  • doubao-pro业务规则4分满分,却在资源限制只拿1分,属于典型“会讲道理但守不住底线”的类型。
  • claude-opus-4.7安全合规3.5分、工程规范3分,却在资源限制仅1.5分,显示其在硬性配额控制上存在明显短板。
  • deepseek-v4-pro安全合规3.5分,但数据边界仅1.5分,说明它容易在敏感数据边界被诱导。
  • gpt-5.5和gpt-o3业务规则均拿4分,资源限制却只有1.5分,同样呈现“业务强、约束弱”的特征。

企业选型具体建议

如果企业核心场景是金融风控、医疗合规,优先选择claude-opus-4.7或ernie-4.5,这两个模型在安全合规场景得分最高且稳定。

若业务以内部审批流、合同条款、定价规则为主,doubao-pro和gpt-5.5更可靠,它们的业务规则场景得分达到满分。

需要严格控制API配额、并发数、存储上限的团队,当前没有任何模型值得信任,gemini-2.5-pro虽相对最好,但也只有2.5分,建议叠加外部限流层。

工程规范场景整体得分较高,除qwen3-max和ernie-4.5外,其余模型均能达到3分,可作为备选。

没有模型能在所有场景都及格,选型本质是接受偏科。

WDCD试点阶段已清晰揭示:资源限制是目前所有大模型共同的阿喀琉斯之踵。下一阶段如果把资源限制权重提升到40%,榜单排名将发生剧烈洗牌。


数据来源:赢政指数 WDCD 守约排行榜 | Run #146 · 场景矩阵 | 评测方法论