3模型暴跌28分，Claude仍近满分

2026年05月16日 24 阅读 - 阅读来源: Winzheng Index

Claude Sonnet 4.6 GPT-5.5 代码执行材料约束 Smoke评测

今天最刺眼的不是Claude赢了，而是三款头部模型同时失速：GPT-5.5主榜跌28分，DeepSeek V4 Pro跌19.4分。

5月16日凌晨3点，赢政指数Smoke轻量评测完成对11个主流模型的10题快测。本轮只看两个可审计核心维度：代码执行和材料约束，主榜公式为core_overall = 0.55 × 代码执行 + 0.45 × 材料约束。这意味着，执行能力一旦掉档，主榜会被迅速拉穿。

第一梯队已经不是“领先”，而是“压制”

Claude Sonnet 4.6以98.34拿下第一，代码执行100，材料约束96.3，诚信评级pass；Claude Opus 4.7紧随其后，主榜97.75，执行同样100，约束95。两者的差距只有0.59分，但它们与第三名豆包Pro的差距已经拉到4分以上。

这不是普通排名优势，而是结构优势：Claude双模型在“能不能跑”和“能不能按材料说话”两个环节都接近满格。Smoke只有10题，题量轻，但越是快测，越能暴露模型在默认状态下的工程可靠性。Claude今天的表现说明，它不是靠某一类题目爆发，而是靠低失误率守住上限。

今日主榜前三：Claude Sonnet 4.6为98.34，Claude Opus 4.7为97.75，豆包Pro为93.48。第三名豆包Pro执行100，但材料约束85.5，是它与Claude差距的主要来源。

真正的断崖在执行：GPT-5.5和DeepSeek都掉到50

今天最值得警惕的是GPT-5.5和DeepSeek V4 Pro。GPT-5.5主榜56.08，较昨日下跌28分，核心原因非常直接：代码执行从昨日水平下滑50分，今日只剩50；DeepSeek V4 Pro主榜54.64，下跌19.4分，执行同样掉到50。

在赢政指数主榜里，代码执行权重是55%。这不是偏爱程序员，而是因为执行题最少废话：结果能跑就是能跑，跑不出来解释再多也没用。GPT-5.5和DeepSeek今天的跌幅，说明问题不在“回答风格”，而在可验证输出出现了断层。

这类波动通常有三种可能：一是模型路由切换，用户拿到的不是同一能力档；二是安全或工具策略调整，导致执行类任务被保守处理；三是近期服务端更新引入回归。无论是哪一种，对开发者都不友好，因为开发场景最怕的不是慢，而是昨天能跑、今天不能跑。

Gemini 3.1 Pro赢在执行，输在材料约束

Gemini 3.1 Pro今日主榜85.96，执行100，但材料约束只有68.8；GPT-o3主榜84.48，执行100，材料约束65.5。它们的问题很像：代码题能打，但一旦要求严格依据材料、避免越界推断，就开始丢分。

这对企业用户是一个提醒：如果你的业务是代码生成、脚本修复、结构化处理，Gemini 3.1 Pro和GPT-o3仍然有竞争力；但如果场景是合规问答、研报摘要、合同条款抽取，材料约束低分会放大风险。模型“聪明”不等于“守规矩”。

Qwen3 Max主榜85.39，执行87.5，材料约束82.8，诚信评级warn，表现均衡但准入信号需要继续观察。
Gemini 2.5 Pro主榜74，执行100，材料约束74.3，但诚信评级fail；它不是能力不够，而是门槛没过。
Grok 4主榜47.75，虽较昨日大涨36.5，但执行50、材料约束45，仍在末位。

Grok的异常：数据口径本身也要被审计

今日异常列表中写到“Grok 4：诚信评级降为Fail”，但同一份数据的今日排名显示为pass，昨日对比也写着fail→pass。这两条信息互相冲突。按可审计明细，本文采用“今日诚信评级pass、较昨日改善”的口径；但这件事本身值得指出：评测报告如果要成为行业基准，模型要被审计，数据标注也必须被审计。

Grok 4的主榜大涨36.5分，听起来很猛，但它今天执行50、材料约束45，仍然垫底。所谓反弹，更像是从异常低位回到可观测区间，而不是能力突破。对买方来说，这种模型不能因为一天涨幅大就进入核心生产链路。

结论：2026年的模型竞争，拼的是少犯错

今天的Smoke快测给出一个清晰信号：头部模型的差距，不再主要来自“会不会回答”，而来自“能否在约束下持续给出可验证结果”。Claude双雄靠执行100和高材料约束守住近满分；豆包Pro证明国产模型可以在执行上打满；GPT-5.5和DeepSeek V4 Pro则提醒行业，旗舰名号挡不住执行回归。

我的判断很直接：未来三个月，企业选型会从“谁最聪明”转向“谁最少翻车”。模型大战的下半场，不奖励灵感，奖励可交付。

数据来源：赢政指数 (YZ Index) | Run #118 | 查看原始数据

3模型暴跌28分，Claude仍近满分

第一梯队已经不是“领先”，而是“压制”

真正的断崖在执行：GPT-5.5和DeepSeek都掉到50

Gemini 3.1 Pro赢在执行，输在材料约束

Grok的异常：数据口径本身也要被审计

结论：2026年的模型竞争，拼的是少犯错

相关测评

Winzheng Index GPT-5.5主榜暴跌28分：真退化吗

Winzheng Index Claude Sonnet 4.6 材料约束暴跌27.5分，主榜却逆势上涨1.4分？

Winzheng Index Claude Sonnet 4.6代码执行暴跌25分：模型退化还是评测假象？

Winzheng Index AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分