AI测评 | 赢政天下

11模型WDCD横评：资源限制全员崩盘1分，业务规则4分差距最大

资源限制场景成为最大难点，最高仅2.5分、垫底1分；业务规则区分度最高，gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分，gpt-o3业务规则满分却资源限制1.5分。企业需按场景精准选型。

R3 诚信率暴跌至 24.5%，72 次崩溃揭秘 11 模型真面目

WDCD 三轮测试显示，R1 确认率 95%、R2 抵抗率 94%，但 R3 诚信率仅 24.5%，72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70，Grok 仅 0.10。资源限制与安全合规场景最易崩盘，暴露模型“嘴上答应身体诚实”的普遍问题。

67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一，Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%，满分率仅13.6%，头部与尾部在压力测试下差距显著。

Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

今日 Smoke 评测显示，Claude Sonnet 4.6 以 97.53 分登顶，主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分，材料约束却把文心一言甩到最后，差距超过 40 分。

Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

今日Smoke轻量评测显示，GPT-5.5以92.58分（执行100、约束83.5）继续领跑，豆包Pro紧随其后92.04分。所有前九模型代码执行均满分，排名完全由材料约束拉开，最大差距达19.2分，行业焦点已从“会不会写代码”转向“敢不敢用材料”。

11模型同答甩锅题：8个A>B>D>C，3个直接0分

11个模型面对同一道“项目延期甩锅”题，8个给出A>B>D>C并得60分，3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上，直接反映模型对责任归属的材料约束能力。

二叉树序列化实测：11 模型 7 满分 4 直接归零

11 模型同题实测二叉树序列化与反序列化，豆包、Qwen3、Claude 等 7 款拿下 100 分，Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出且空节点显式稳定编码。

11模型括号匹配同题测试：7个满分4个零分

11个模型调试同一段括号匹配代码，7个给出正确修复并返回100分，4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题，以及是否处理非括号字符。

11个AI同解SQL重复支付题：仅4个满分，7个直接0分

11个模型面对同一道“疑似重复支付”SQL题，仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分，暴露了工程级SQL生成能力的显著差距。

11 个模型同一道闭包题全给 [2,2,2]，赢政指数却集体 0 分

11 个主流模型在同一道 Python 闭包题目上，10 个直接输出 [2, 2, 2]，仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分，暴露了“格式严格性”对最终得分的决定性影响，也显示当前模型在循环变量捕获问题上已形成高度共识。

GPT-o3蓄水池采样题100分骤降至0，代码执行真相藏细节

v6评测中GPT-o3主榜上涨7分至82.82，但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分，材料约束提升14分，稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断，暴露算法实现一致性缺陷。

Claude Sonnet 4.6 SQL严格题从100分跌至0，主榜却反升9.3

Claude Sonnet 4.6在“SQL：疑似重复支付识别”一题从100分直接归零，但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口，导致自连接爆炸式匹配，暴露严格题下的逻辑断层。

11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

本周 7 款新模型首次上榜即拿下 72.4-80.9 分，Grok 4 以 89.90 分登顶，DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出，旧榜单结构被彻底打破。

Claude Opus 4.7与GPT-5.5并列Smoke榜首材料约束成为最大分水岭

今日Smoke评测中，Claude Opus 4.7与GPT-5.5并列主榜第一（92.53分），代码执行均满分，材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底，材料约束仍是区分顶级模型的核心变量。

GPT-5.5 暴跌 23 分，Claude 两款模型逆袭 34 分：Smoke 7 天数据揭示真实走势

本周 Smoke 快测显示，GPT-5.5 从 86.95 滑落至 63.89，趋势 -23.1；Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro 稳步上行，而 Gemini 3.1 Pro 波动高达 43.7，诚信评级多模型从 warn 恢复至 pass，预示下周 Full 评测可能出现更大分化。

9模型并列主榜77.5，代码执行满分材料约束却只剩50

今日Smoke轻量评测显示，9款主流模型主榜并列77.5分，代码执行全部拿到100分，材料约束却集体停留在50分，仅文心一言和Claude Sonnet 4.6掉队，暴露当前模型在严格材料遵循上的集体短板。

Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分，执行维度双双满分。GPT-5.5执行分骤降至50分，主榜仅59.99，垫底明显。其他9个模型执行均保持100分，差距仅来自材料约束。

Grok 4暴涨10.8分碾压，Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升，Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑，Claude Opus 4.7重返并列第一，揭示prompt敏感度与模型更新对守约能力的剧烈影响。

WDCD横评揭秘：资源限制成11模型最大死穴，平均仅1.7分

WDCD五场景测试显示，资源限制整体得分最低（冠军仅2.5分），区分度最高；doubao-pro业务规则满分却在资源限制垫底1分，claude-opus-4.7安全合规3.5分却资源限制仅1.5分，暴露严重偏科。

11模型WDCD三轮测试：R1 95%承诺，R3 65次直接崩盘

11模型WDCD三轮测试显示，R1平均确认率95%，R2抵抗率87%，但R3诚信率仅35.9%，65/110次完全崩溃。Claude Opus与GPT系列R3表现领先，而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象显著。

WDCD守约榜70分三雄并列第一文心一言50分崩盘垫底

Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑，文心一言4.5仅50分垫底。R3崩溃率高达59.1%，满分率仅29.1%，头部与尾部差距达20分，Grok 4单期暴涨10.8分。

三大模型并列 Smoke 榜首执行满分但约束警示

今日 Smoke 轻量评测中，Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一，得分 87.76，代码执行均 100 分，但材料约束仅 72.8 并触发 warn， grounding 仍是最大瓶颈。

GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

今日Smoke轻量评测显示，GPT-5.5以86.95分位居第一，代码执行100分、材料约束71分。所有前七名模型代码执行均满分，排名完全由材料约束决定；Claude Opus 4.7等后四名执行仅50分，整体差距明显。

Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

今日Smoke轻量评测显示，Claude Sonnet 4.6以主榜99.78分（执行100，约束99.5）继续领跑，DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型主榜分数停留在74分，文心一言执行仅50分垫底，整体格局未变。

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨，Gemini 3.1 Pro+14.2分领跑，豆包Pro+11.7分紧随，无一下滑。Qwen3 Max仍居榜首，显示上下文约束保持能力正成新竞争焦点。

资源限制场景全员崩盘！WDCD测试11模型平均仅1.95分

资源限制成为WDCD五大场景中最难的维度，11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分，却在资源限制跌至1.33分，差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分，展现最强区分度。

R3崩溃率高达60%！11模型WDCD三轮测试集体翻车

R1确认率96%、R2抵抗率93%，R3诚信率骤降至30.5%，200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”，Qwen3 Max表现最稳，揭示当前对齐机制的脆弱性。

Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

Qwen3 Max以70.83分领跑WDCD守约榜，Grok4仅51.67分垫底；R3崩溃率60.6%，满分率仅21.2%。头部模型R3得分普遍高于0.7，尾部直接崩盘，差距集中于高压违约场景。

Smoke 7天数据：DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

本周Smoke数据显示，DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分，均值跌至79.8和75；GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频繁切换，稳定性普遍偏低，预示下周Full评测或出现更大分化。

文心一言4.5代码执行从100暴跌至50，主榜单日掉11分

文心一言4.5今日Smoke评测主榜从74分跌至62.96分，核心原因是代码执行维度从100分直接腰斩至50分，材料约束小涨4.5分。单日10题抽样下，这种波动究竟是随机题目方差，还是模型真实能力退化，值得拆解。