五大场景照妖镜:资源限制让全员翻车,最高分仅2.17

WDCD 试点数据出炉,30 道题、11 个模型、5 大场景的交叉矩阵砸出一个反直觉结论:没有任何一个模型能在所有场景守约,而"资源限制"这个看似最简单的场景,竟然让全员翻车——冠军 grok-4 也只拿到 2.17/4。

最难场景:资源限制成全员"滑铁卢"

把五大场景的均分摊开看,差距触目惊心。安全合规场景全员均分约 2.92,业务规则约 2.59,而资源限制场景全员均分仅 1.89,连及格线都摸不到。这意味着当你告诉模型"预算只有 5000 元""单次调用 token 不超过 2000""响应时间必须 200ms 内"这类硬性资源约束时,三轮对话后模型大概率会"忘记"或"突破"这些数字。

更讽刺的是排名倒挂。grok-4 在数据边界、业务规则、安全合规三个场景都是垫底,唯独在资源限制场景反超夺冠。这不是 grok-4 变强了,而是其他模型在资源数字面前集体失忆——deepseek-v4-pro、doubao-pro、ernie-4.5 三家齐刷刷 1.67 分,连"R1 有效注入"都做不稳。

资源限制场景的失败模式高度一致:R1 接受约束 → R2 闲聊后约束记忆衰减 → R3 用户撒娇说"这次破例一下嘛",模型立刻松口。数字型约束的衰减速度远快于规则型约束。

区分度最大场景:业务规则拉开 1.5 分鸿沟

业务规则场景的极差最大——claude-opus-4.7 和 gpt-o3 双冠 3.17 分,grok-4 垫底 1.67 分,头尾差距 1.5 分,几乎是一倍的水准差距。这个场景考的是"工作流必须先审批后执行""客户等级 A 以下不享折扣"这类企业刚性流程,恰恰是 SaaS、ERP、CRM 类应用的核心。

反观安全合规场景,11 个模型从 2.33 到 3.5,区分度最小。这说明合规守约已经被各家通过 RLHF 重点训练,几乎成了模型出厂标配,但业务规则这种"客户自定义约束"的守护能力,才是真正考验模型上下文坚守功底的试金石。

偏科图鉴:deepseek 是最危险的"双面人"

八个模型出现 1 分以上的场景偏科,其中 deepseek-v4-pro 偏科最严重——安全合规拿到 3.33 的次冠军成绩,资源限制却跌到 1.67 垫底之列,差距 1.66 分。这种偏科对企业是地雷:你以为它"很守规矩",但一旦让它管成本、管配额,它就放飞自我。

gpt-o3 是另一个典型。安全合规 3.5 分封神,工程规范却只有 2 分。它能死守"不输出违规内容",却记不住"代码必须用 TypeScript 严格模式""禁止使用 any 类型"这类工程纪律。对 AI 编程平台来说,gpt-o3 的工程规范短板比它的合规优势更值得警惕

反向案例是 gemini-3.1-pro:工程规范以 2.75 拿下唯一冠军,但安全合规仅 2.83 中游。有意思的是它和 gemini-2.5-pro 在工程规范上拉开 1 分(2.75 vs 1.75)——同门师兄弟,工程纪律差出整整一个档位,这是 Google 这一代调优明显加码代码场景的信号。

企业选型四条铁律

  • 合规驱动型业务(金融、医疗、政务):首选 gpt-o3(3.5)或 deepseek-v4-pro(3.33),但后者要避开成本敏感场景。
  • SaaS / 业务流程自动化:claude-opus-4.7 和 gpt-o3 并列首选(3.17),claude-sonnet-4.6 是性价比备选(3.0)。
  • AI Coding / 工程平台:gemini-3.1-pro 是黑马首选(2.75),claude 双子星紧随其后。千万别用 gemini-2.5-pro 写代码——它工程规范只有 1.75,与 grok-4 并列垫底。
  • 涉及预算/配额/限流的 Agent 系统:所有模型都不可信,必须在外部加硬性 guardrail,模型层只能做最后一道软约束。

WDCD 的试点数据撕掉了"综合分崇拜"的最后一块遮羞布——没有全能选手,只有合适的场景搭档。当模型能力日益接近,守约的稳定性才是企业级落地真正的护城河。下一次有人拿一个总分给你推销模型时,请先问一句:你测的是哪个场景?


数据来源:赢政指数 WDCD 守约排行榜 | Run #100 · 场景矩阵 | 评测方法论