Grok 4 98.34 分登顶,Claude Opus 主榜暴跌 31.3 分

Smoke 今日 10 题快测结果直接暴露了模型间执行能力的巨大差异。Grok 4 以 98.34 分位居第一,代码执行拿到满分,材料约束 96.3 分,仅获 warn 评级,整体表现最稳。

Claude 系列为何集体失速

Claude Opus 4.7 主榜从昨日高位直接跌落 31.3 分,代码执行暴跌 59.4 分,降至 38.1。Sonnet 4.6 同样下跌 30.3 分,执行分减少 47.5。两款模型的诚信评级均从 pass 变为 warn,显示回答一致性出现问题。

执行分权重占主榜 0.55,这意味着只要代码任务表现下滑,主榜就会被大幅拉低。今日测试的 10 题中,Claude 系列在需要多步推理和工具调用的题目上明显失误,原始日志显示多次出现中间步骤中断。

执行满分阵营与下滑阵营对比

Grok 4、Qwen3 Max、DeepSeek V4 Pro、Gemini 2.5 Pro 四款模型代码执行均为 100 分,占据前四名。其中 Gemini 2.5 Pro 主榜上升 15.9 分,主要靠执行分回升,但材料约束反而下降 14 分,诚信评级从 fail 转为 warn。

豆包 Pro、GPT-5.5、Gemini 3.1 Pro、GPT-o3 执行分均为 66.7,较昨日继续下滑。文心一言 4.5 执行分仅 50,较前一日再跌 42.5 分,材料约束虽达 95 分,却因执行短板只能排在第九。

行业动态下的真实信号

Claude 系列在 Smoke 这种快测场景下的执行波动,反映出其在轻量、限定材料任务中的一致性不足。Grok 4 与 Qwen3 Max 则在同等条件下保持了高完成率,说明其对任务指令的解析和代码生成路径更可靠。

连续多日出现执行分剧烈波动的模型,需警惕是否进入版本迭代的敏感窗口。今日数据已清晰划分出两类模型:一类能稳定输出可运行代码,另一类则在相同题目下反复出错。

执行能力一旦崩盘,主榜排名就会被残酷改写。

数据来源:赢政指数 (YZ Index) | Run #126 | 查看原始数据