2个零执行暴雷，Claude守住88.75分

2026年05月15日 21 阅读 - 阅读来源: Winzheng Index

Claude Opus 4.7 材料约束 Smoke评测诚信评级模型日报

今天的Smoke不是Claude赢了这么简单：9个模型代码执行满分，真正拉开差距的是材料约束；文心一言4.5和Grok 4则在代码执行上直接归零。

5月15日凌晨3点，赢政指数Smoke轻量评测对11个主流模型进行了10题快测，核心只看两个可审计项：代码执行和材料约束，主榜公式为：0.55×代码执行 + 0.45×材料约束。结果很刺眼：Claude Opus 4.7以88.75排第一，代码执行100，材料约束75，诚信评级pass；Claude Sonnet 4.6与Qwen3 Max同为86.05，执行同样满分，材料约束均为69。

第一判断：代码执行正在“满分化”，材料约束才是硬门槛

今天前9名的代码执行全部是100分，从Claude、Qwen、豆包、Gemini到GPT-o3、DeepSeek V4 Pro，都能把题跑出来。这说明一个趋势：在轻量任务里，主流模型的代码执行能力已经进入同质化区间。换句话说，能写、能跑，已经不再稀缺。

真正的差距出现在材料约束。Opus 4.7拿到75，是今天唯一站上70分的模型；Sonnet 4.6和Qwen3 Max为69；豆包 Pro、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5、GPT-o3、DeepSeek V4 Pro都停在64.5。这个分布说明，模型在“按材料说话、不越界、不脑补”这件事上，仍然没有被彻底解决。

今天的榜单不是执行力竞赛，而是约束力筛选。谁更会遵守材料，谁才更接近企业可用。

Claude赢了，但Sonnet有一个危险信号

Claude Opus 4.7今天的胜利很干净：执行100，材料约束75，诚信评级pass，主榜88.75。它不是靠某一项爆发，而是在“满分执行+相对更强约束”上拿到了最优组合。

但同属Claude家族的Sonnet 4.6并不稳妥。它虽然仍以86.05排第二，但材料约束较昨日暴跌27.5分，这是今天最值得盯的异常之一。对于生产环境而言，材料约束突然下滑比单题失误更麻烦，因为它往往意味着模型在引用边界、指令服从或上下文取舍上出现了漂移。Claude品牌的强项一直是可靠输出，如果Sonnet后续继续下滑，它会从“默认安全选项”变成“需要复核的高性能选项”。

国产模型一喜一忧：Qwen稳，文心崩

Qwen3 Max今天表现很强，主榜86.05，与Claude Sonnet 4.6并列第二，执行100、材料约束69、诚信评级pass。这个成绩的价值在于，它不是靠单项偷分，而是在两项核心指标上都进入第一梯队。对国内企业来说，Qwen3 Max已经不是“可替代选项”，而是可以进入主力候选池的模型。

豆包 Pro也有明显回升，主榜84.03，较昨日上涨10.2，执行增加25分；但材料约束下降8分，说明它今天的提升主要来自执行修复，而不是整体约束能力增强。

另一边，文心一言4.5今天非常难看：主榜29.03，较昨日暴跌44分，代码执行从昨日下滑69分至0，材料约束也下降13.5至64.5，诚信评级warn。执行归零在Smoke这种10题快测里是强烈告警，可能来自运行链路、工具调用、题型适配或输出格式问题，但不管原因是什么，用户看到的结果只有一个：任务没完成。

Grok 4和DeepSeek的问题不一样

Grok 4主榜11.25，代码执行0，材料约束25，诚信评级fail，较昨日主榜下降38.2。这不是小波动，而是核心能力在本轮快测中失守。尤其材料约束只有25，意味着它不仅没把代码任务做好，连“按给定材料回答”的边界也没有守住。

DeepSeek V4 Pro则更微妙：执行100、材料约束64.5，但诚信评级从pass降为fail，主榜显示74。这里的重点不是它会不会写代码，而是能不能被放心纳入同一采购池。诚信评级是准入门槛，不是加分项；一旦到fail，企业就不该只盯着执行满分，而应先追问输出是否存在不可信风险。

第一梯队：Claude Opus 4.7，唯一主榜接近90且材料约束75。
追赶者：Claude Sonnet 4.6、Qwen3 Max，分数相同，但Sonnet有约束暴跌信号。
中段拥挤区：豆包、Gemini、GPT-o3等同为84.03，差异主要看诚信评级与后续波动。
风险区：文心一言4.5、Grok 4，执行归零不应被轻描淡写。

我的结论很明确：2026年的模型竞争，已经从“谁更会答题”转向“谁更少失控”。今天的Smoke榜单给出的信号是，代码执行正在变成基础设施能力，材料约束才是高端模型的护城河。

下一阶段，企业买模型不是买最会说的那个，而是买最不容易越界的那个。

数据来源：赢政指数 (YZ Index) | Run #117 | 查看原始数据

2个零执行暴雷，Claude守住88.75分

第一判断：代码执行正在“满分化”，材料约束才是硬门槛

Claude赢了，但Sonnet有一个危险信号

国产模型一喜一忧：Qwen稳，文心崩

Grok 4和DeepSeek的问题不一样

相关测评

Winzheng Index DeepSeek涨5分却Fail：10题烟测警报

Winzheng Index DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？

Winzheng Index Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Winzheng Index Claude Sonnet 4.6 材料约束暴跌27.5分，主榜却逆势上涨1.4分？