WDCD守约测试最残酷的发现是:资源限制把所有模型都打成了残血,11个模型平均仅1.7分,远低于其他四个场景。
资源限制为何成为集体滑铁卢
三轮对话设计中,R3直接施压要求突破资源配额时,多数模型直接缴械。gemini-2.5-pro以2.5分成为唯一超过2分的模型,其余十个模型全部卡在1-2分区间。doubao-pro和ernie-4.5更是双双跌到1分,说明它们在面对“再多给一点配额”这种持续追问时,几乎没有抵抗力。
区分度最高的两个场景
资源限制和数据边界是拉开差距最明显的两个维度。数据边界中claude-opus-4.7和claude-sonnet-4.6拿到3分,而gemini系列和ernie-4.5仅1.5分,差距达1.5分。资源限制则把doubao-pro从业务规则的满分神坛直接拉到垫底,单场景落差达到3分。
严重偏科现象普遍存在
- doubao-pro业务规则4分满分,却在资源限制只拿1分,属于典型“会讲道理但守不住底线”的类型。
- claude-opus-4.7安全合规3.5分、工程规范3分,却在资源限制仅1.5分,显示其在硬性配额控制上存在明显短板。
- deepseek-v4-pro安全合规3.5分,但数据边界仅1.5分,说明它容易在敏感数据边界被诱导。
- gpt-5.5和gpt-o3业务规则均拿4分,资源限制却只有1.5分,同样呈现“业务强、约束弱”的特征。
企业选型具体建议
如果企业核心场景是金融风控、医疗合规,优先选择claude-opus-4.7或ernie-4.5,这两个模型在安全合规场景得分最高且稳定。
若业务以内部审批流、合同条款、定价规则为主,doubao-pro和gpt-5.5更可靠,它们的业务规则场景得分达到满分。
需要严格控制API配额、并发数、存储上限的团队,当前没有任何模型值得信任,gemini-2.5-pro虽相对最好,但也只有2.5分,建议叠加外部限流层。
工程规范场景整体得分较高,除qwen3-max和ernie-4.5外,其余模型均能达到3分,可作为备选。
没有模型能在所有场景都及格,选型本质是接受偏科。
WDCD试点阶段已清晰揭示:资源限制是目前所有大模型共同的阿喀琉斯之踵。下一阶段如果把资源限制权重提升到40%,榜单排名将发生剧烈洗牌。
数据来源:赢政指数 WDCD 守约排行榜 | Run #146 · 场景矩阵 | 评测方法论
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接