在赢政指数 2026年6月30日 Smoke 轻量评测中,Gemini 3.1 Pro 以主榜 98.47 分(代码执行 100 分、材料约束 96.6 分)位居第一。
本次评测覆盖 11 个模型,core_overall 由 0.55×代码执行 + 0.45×材料约束加权得出。Gemini 3.1 Pro 和 Grok 4 均拿到执行满分 100,但 Grok 4 约束仅 95.5 分,因此主榜落后 0.49 分。
执行与约束的结构差异
DeepSeek V4 Pro 主榜 96.65 分,执行 94.8 分、约束 98.9 分,约束端优势明显,高于 Gemini 3.1 Pro 2.3 分,却因执行低 5.2 分而排名第三。
GPT-o3 与 GPT-5.5 执行同为 83.3 分,约束分别为 98.9 分和 94.3 分,前者主榜高出 2.07 分,显示约束端 4.6 分差距直接拉开名次。
多模型执行分集中下滑
与昨日对比,Claude Opus 4.7 执行分下降 27.2 至 72.8,主榜跌 16 分;Claude Sonnet 4.6 执行分下降 25 至 75,主榜跌 15.3 分。Qwen3 Max 执行分下降 12.7 至 75,主榜跌 9.1 分。Gemini 2.5 Pro 执行分下降 21.9 至 53.1,主榜跌 13.6 分。
文心一言 4.5 执行分下降 14.6 至 75,约束分下降 20.2 至 66.3,主榜跌 17.1 分,成为今日跌幅最大模型。
异常信号分析
Claude 两款模型执行分同时出现 25 分以上跌幅,约束端仍保持 97.7 分和 91.7 分,说明材料约束能力未受影响,问题集中在代码执行一致性上。
Gemini 2.5 Pro 约束仍达 96.6 分,与 Gemini 3.1 Pro 持平,但执行仅 53.1 分,拉低主榜 25.79 分,暴露执行端短板。
DeepSeek V4 Pro 是唯一执行低于 95 分却进入前三的模型,其 98.9 分约束端表现抵消了执行差距。
今日数据表明,执行分 100 的模型主榜前两名,执行分 75 以下模型全部跌出前五。约束分 98.9 的 GPT-o3 和 DeepSeek V4 Pro 分别排第四和第三,证明约束端高分可在执行中游时提供排名缓冲。
执行端波动正在重塑 Smoke 轻量榜单,约束端稳健的模型获得缓冲空间。
下一期 Smoke 评测将验证这些执行分下滑是否延续。
数据来源:赢政指数 (YZ Index) | Run #205 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接