3模型暴跌28分,Claude仍近满分

今天最刺眼的不是Claude赢了,而是三款头部模型同时失速:GPT-5.5主榜跌28分,DeepSeek V4 Pro跌19.4分。

5月16日凌晨3点,赢政指数Smoke轻量评测完成对11个主流模型的10题快测。本轮只看两个可审计核心维度:代码执行和材料约束,主榜公式为core_overall = 0.55 × 代码执行 + 0.45 × 材料约束。这意味着,执行能力一旦掉档,主榜会被迅速拉穿。

第一梯队已经不是“领先”,而是“压制”

Claude Sonnet 4.6以98.34拿下第一,代码执行100,材料约束96.3,诚信评级pass;Claude Opus 4.7紧随其后,主榜97.75,执行同样100,约束95。两者的差距只有0.59分,但它们与第三名豆包Pro的差距已经拉到4分以上。

这不是普通排名优势,而是结构优势:Claude双模型在“能不能跑”和“能不能按材料说话”两个环节都接近满格。Smoke只有10题,题量轻,但越是快测,越能暴露模型在默认状态下的工程可靠性。Claude今天的表现说明,它不是靠某一类题目爆发,而是靠低失误率守住上限。

今日主榜前三:Claude Sonnet 4.6为98.34,Claude Opus 4.7为97.75,豆包Pro为93.48。第三名豆包Pro执行100,但材料约束85.5,是它与Claude差距的主要来源。

真正的断崖在执行:GPT-5.5和DeepSeek都掉到50

今天最值得警惕的是GPT-5.5和DeepSeek V4 Pro。GPT-5.5主榜56.08,较昨日下跌28分,核心原因非常直接:代码执行从昨日水平下滑50分,今日只剩50;DeepSeek V4 Pro主榜54.64,下跌19.4分,执行同样掉到50。

在赢政指数主榜里,代码执行权重是55%。这不是偏爱程序员,而是因为执行题最少废话:结果能跑就是能跑,跑不出来解释再多也没用。GPT-5.5和DeepSeek今天的跌幅,说明问题不在“回答风格”,而在可验证输出出现了断层。

这类波动通常有三种可能:一是模型路由切换,用户拿到的不是同一能力档;二是安全或工具策略调整,导致执行类任务被保守处理;三是近期服务端更新引入回归。无论是哪一种,对开发者都不友好,因为开发场景最怕的不是慢,而是昨天能跑、今天不能跑。

Gemini 3.1 Pro赢在执行,输在材料约束

Gemini 3.1 Pro今日主榜85.96,执行100,但材料约束只有68.8;GPT-o3主榜84.48,执行100,材料约束65.5。它们的问题很像:代码题能打,但一旦要求严格依据材料、避免越界推断,就开始丢分。

这对企业用户是一个提醒:如果你的业务是代码生成、脚本修复、结构化处理,Gemini 3.1 Pro和GPT-o3仍然有竞争力;但如果场景是合规问答、研报摘要、合同条款抽取,材料约束低分会放大风险。模型“聪明”不等于“守规矩”。

  • Qwen3 Max主榜85.39,执行87.5,材料约束82.8,诚信评级warn,表现均衡但准入信号需要继续观察。
  • Gemini 2.5 Pro主榜74,执行100,材料约束74.3,但诚信评级fail;它不是能力不够,而是门槛没过。
  • Grok 4主榜47.75,虽较昨日大涨36.5,但执行50、材料约束45,仍在末位。

Grok的异常:数据口径本身也要被审计

今日异常列表中写到“Grok 4:诚信评级降为Fail”,但同一份数据的今日排名显示为pass,昨日对比也写着fail→pass。这两条信息互相冲突。按可审计明细,本文采用“今日诚信评级pass、较昨日改善”的口径;但这件事本身值得指出:评测报告如果要成为行业基准,模型要被审计,数据标注也必须被审计。

Grok 4的主榜大涨36.5分,听起来很猛,但它今天执行50、材料约束45,仍然垫底。所谓反弹,更像是从异常低位回到可观测区间,而不是能力突破。对买方来说,这种模型不能因为一天涨幅大就进入核心生产链路。

结论:2026年的模型竞争,拼的是少犯错

今天的Smoke快测给出一个清晰信号:头部模型的差距,不再主要来自“会不会回答”,而来自“能否在约束下持续给出可验证结果”。Claude双雄靠执行100和高材料约束守住近满分;豆包Pro证明国产模型可以在执行上打满;GPT-5.5和DeepSeek V4 Pro则提醒行业,旗舰名号挡不住执行回归。

我的判断很直接:未来三个月,企业选型会从“谁最聪明”转向“谁最少翻车”。模型大战的下半场,不奖励灵感,奖励可交付。


数据来源:赢政指数 (YZ Index) | Run #118 | 查看原始数据