2个零执行暴雷,Claude守住88.75分

今天的Smoke不是Claude赢了这么简单:9个模型代码执行满分,真正拉开差距的是材料约束;文心一言4.5和Grok 4则在代码执行上直接归零。

5月15日凌晨3点,赢政指数Smoke轻量评测对11个主流模型进行了10题快测,核心只看两个可审计项:代码执行和材料约束,主榜公式为:0.55×代码执行 + 0.45×材料约束。结果很刺眼:Claude Opus 4.7以88.75排第一,代码执行100,材料约束75,诚信评级pass;Claude Sonnet 4.6与Qwen3 Max同为86.05,执行同样满分,材料约束均为69。

第一判断:代码执行正在“满分化”,材料约束才是硬门槛

今天前9名的代码执行全部是100分,从Claude、Qwen、豆包、Gemini到GPT-o3、DeepSeek V4 Pro,都能把题跑出来。这说明一个趋势:在轻量任务里,主流模型的代码执行能力已经进入同质化区间。换句话说,能写、能跑,已经不再稀缺。

真正的差距出现在材料约束。Opus 4.7拿到75,是今天唯一站上70分的模型;Sonnet 4.6和Qwen3 Max为69;豆包 Pro、Gemini 2.5 Pro、Gemini 3.1 Pro、GPT-5.5、GPT-o3、DeepSeek V4 Pro都停在64.5。这个分布说明,模型在“按材料说话、不越界、不脑补”这件事上,仍然没有被彻底解决。

今天的榜单不是执行力竞赛,而是约束力筛选。谁更会遵守材料,谁才更接近企业可用。

Claude赢了,但Sonnet有一个危险信号

Claude Opus 4.7今天的胜利很干净:执行100,材料约束75,诚信评级pass,主榜88.75。它不是靠某一项爆发,而是在“满分执行+相对更强约束”上拿到了最优组合。

但同属Claude家族的Sonnet 4.6并不稳妥。它虽然仍以86.05排第二,但材料约束较昨日暴跌27.5分,这是今天最值得盯的异常之一。对于生产环境而言,材料约束突然下滑比单题失误更麻烦,因为它往往意味着模型在引用边界、指令服从或上下文取舍上出现了漂移。Claude品牌的强项一直是可靠输出,如果Sonnet后续继续下滑,它会从“默认安全选项”变成“需要复核的高性能选项”。

国产模型一喜一忧:Qwen稳,文心崩

Qwen3 Max今天表现很强,主榜86.05,与Claude Sonnet 4.6并列第二,执行100、材料约束69、诚信评级pass。这个成绩的价值在于,它不是靠单项偷分,而是在两项核心指标上都进入第一梯队。对国内企业来说,Qwen3 Max已经不是“可替代选项”,而是可以进入主力候选池的模型。

豆包 Pro也有明显回升,主榜84.03,较昨日上涨10.2,执行增加25分;但材料约束下降8分,说明它今天的提升主要来自执行修复,而不是整体约束能力增强。

另一边,文心一言4.5今天非常难看:主榜29.03,较昨日暴跌44分,代码执行从昨日下滑69分至0,材料约束也下降13.5至64.5,诚信评级warn。执行归零在Smoke这种10题快测里是强烈告警,可能来自运行链路、工具调用、题型适配或输出格式问题,但不管原因是什么,用户看到的结果只有一个:任务没完成。

Grok 4和DeepSeek的问题不一样

Grok 4主榜11.25,代码执行0,材料约束25,诚信评级fail,较昨日主榜下降38.2。这不是小波动,而是核心能力在本轮快测中失守。尤其材料约束只有25,意味着它不仅没把代码任务做好,连“按给定材料回答”的边界也没有守住。

DeepSeek V4 Pro则更微妙:执行100、材料约束64.5,但诚信评级从pass降为fail,主榜显示74。这里的重点不是它会不会写代码,而是能不能被放心纳入同一采购池。诚信评级是准入门槛,不是加分项;一旦到fail,企业就不该只盯着执行满分,而应先追问输出是否存在不可信风险。

  • 第一梯队:Claude Opus 4.7,唯一主榜接近90且材料约束75。
  • 追赶者:Claude Sonnet 4.6、Qwen3 Max,分数相同,但Sonnet有约束暴跌信号。
  • 中段拥挤区:豆包、Gemini、GPT-o3等同为84.03,差异主要看诚信评级与后续波动。
  • 风险区:文心一言4.5、Grok 4,执行归零不应被轻描淡写。

我的结论很明确:2026年的模型竞争,已经从“谁更会答题”转向“谁更少失控”。今天的Smoke榜单给出的信号是,代码执行正在变成基础设施能力,材料约束才是高端模型的护城河。

下一阶段,企业买模型不是买最会说的那个,而是买最不容易越界的那个。

数据来源:赢政指数 (YZ Index) | Run #117 | 查看原始数据