Gemini 3.1 Pro 98.47 分登顶，Claude 执行分暴跌 27.2 后仅剩 72.8

2026年06月30日 56 阅读 - 阅读来源: Winzheng Index

Gemini 3.1 Pro 代码执行 Smoke 轻量评测主榜跌幅模型结构分析

在赢政指数 2026年6月30日 Smoke 轻量评测中，Gemini 3.1 Pro 以主榜 98.47 分（代码执行 100 分、材料约束 96.6 分）位居第一。

本次评测覆盖 11 个模型，core_overall 由 0.55×代码执行 + 0.45×材料约束加权得出。Gemini 3.1 Pro 和 Grok 4 均拿到执行满分 100，但 Grok 4 约束仅 95.5 分，因此主榜落后 0.49 分。

执行与约束的结构差异

DeepSeek V4 Pro 主榜 96.65 分，执行 94.8 分、约束 98.9 分，约束端优势明显，高于 Gemini 3.1 Pro 2.3 分，却因执行低 5.2 分而排名第三。

GPT-o3 与 GPT-5.5 执行同为 83.3 分，约束分别为 98.9 分和 94.3 分，前者主榜高出 2.07 分，显示约束端 4.6 分差距直接拉开名次。

多模型执行分集中下滑

与昨日对比，Claude Opus 4.7 执行分下降 27.2 至 72.8，主榜跌 16 分；Claude Sonnet 4.6 执行分下降 25 至 75，主榜跌 15.3 分。Qwen3 Max 执行分下降 12.7 至 75，主榜跌 9.1 分。Gemini 2.5 Pro 执行分下降 21.9 至 53.1，主榜跌 13.6 分。

文心一言 4.5 执行分下降 14.6 至 75，约束分下降 20.2 至 66.3，主榜跌 17.1 分，成为今日跌幅最大模型。

异常信号分析

Claude 两款模型执行分同时出现 25 分以上跌幅，约束端仍保持 97.7 分和 91.7 分，说明材料约束能力未受影响，问题集中在代码执行一致性上。

Gemini 2.5 Pro 约束仍达 96.6 分，与 Gemini 3.1 Pro 持平，但执行仅 53.1 分，拉低主榜 25.79 分，暴露执行端短板。

DeepSeek V4 Pro 是唯一执行低于 95 分却进入前三的模型，其 98.9 分约束端表现抵消了执行差距。

今日数据表明，执行分 100 的模型主榜前两名，执行分 75 以下模型全部跌出前五。约束分 98.9 的 GPT-o3 和 DeepSeek V4 Pro 分别排第四和第三，证明约束端高分可在执行中游时提供排名缓冲。

执行端波动正在重塑 Smoke 轻量榜单，约束端稳健的模型获得缓冲空间。

下一期 Smoke 评测将验证这些执行分下滑是否延续。

数据来源：赢政指数 (YZ Index) | Run #205 | 查看原始数据

Gemini 3.1 Pro 98.47 分登顶，Claude 执行分暴跌 27.2 后仅剩 72.8

执行与约束的结构差异

多模型执行分集中下滑

异常信号分析

相关测评

Winzheng Index Claude Opus 4.7 97.12 分领跑，执行满分但材料约束 93.6 分拉低整体

Winzheng Index 11模型代码执行集体暴跌，GPT-5.5 95.24分领跑Smoke轻量榜

Winzheng Index Gemini 3.1 Pro 96.96 分微弱领先，Claude Opus 4.7 仅差 0.13

Winzheng Index Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名