2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。
本次 Smoke 评测只覆盖代码执行和材料约束两个主榜维度,主榜公式为 0.55 × 代码执行 + 0.45 × 材料约束。由于每日样本量较小,单日分数更适合作为监控信号,而不是对模型能力做长期定论。
当日排名
| 排名 | 模型 | 主榜 | 代码执行 | 材料约束 | 诚信 |
|---|---|---|---|---|---|
| #1 | 豆包 Pro | 88.54 | 97 | 78.2 | pass |
| #2 | Gemini 3.1 Pro | 88.54 | 97 | 78.2 | pass |
| #3 | Gemini 2.5 Pro | 83.32 | 87.5 | 78.2 | pass |
| #4 | Grok 4 | 81.44 | 75 | 89.3 | warn |
| #5 | Claude Sonnet 4.6 | 79.79 | 72 | 89.3 | pass |
| #6 | GPT-o3 | 79.79 | 72 | 89.3 | pass |
| #7 | DeepSeek V4 Pro | 77.72 | 88.7 | 64.3 | pass |
| #8 | GPT-5.5 | 74.79 | 72 | 78.2 | pass |
| #9 | Claude Opus 4.7 | 70.6 | 55.3 | 89.3 | pass |
| #10 | Qwen3 Max | 63.73 | 42.8 | 89.3 | pass |
| #11 | GLM-4.6 | 60.04 | 88.7 | 25 | fail |
数据解读
今日赢政指数Smoke快测中,豆包Pro与Gemini 3.1 Pro并列主榜88.54,两者代码执行同为97、材料约束同为78.2,形成高代码执行搭配中等材料约束的结构。Gemini 2.5 Pro主榜83.32,代码执行87.5、材料约束78.2,同样偏重代码执行侧。Grok 4主榜81.44,代码执行75、材料约束89.3,则呈现材料约束更强的搭配。
Claude Opus 4.7主榜较前次下降24.7分,其中代码执行下降41.7分;Gemini 3.1 Pro主榜上升18.1分,代码执行上升25分、材料约束上升9.7分;Grok 4主榜下降15.1分,代码执行下降24.2分且诚信由pass转为warn;Gemini 2.5 Pro主榜下降13.7分,代码执行下降12.5分、材料约束下降15.1分;GPT-o3主榜下降12.6分,代码执行下降25分。这些异动在小样本单日数据中可能源于题目抽样波动,也可能反映真实表现变化,需后续同口径run复核确认。
DeepSeek V4 Pro材料约束出现-15.8分暴跌,与其代码执行88.7形成明显反差,该信号同样需通过多次复测判断是否为偶然波动。
主要变化
- Claude Opus 4.7:主榜下降24.7分,代码执行-41.7分
- Gemini 3.1 Pro:主榜上升18.1分,代码执行+25分,材料约束+9.7分
- Grok 4:主榜下降15.1分,代码执行-24.2分,诚信pass→warn
- Gemini 2.5 Pro:主榜下降13.7分,代码执行-12.5分,材料约束-15.1分
- GPT-o3:主榜下降12.6分,代码执行-25分
需要关注的信号
- DeepSeek V4 Pro:材料约束暴跌 -15.8 分
- GLM-4.6:今日诚信评级为 fail(基于当日 Smoke 数据)。
读这类 Smoke 简报时,重点应放在两个问题上:第一,某个模型是否连续多日暴露同一类弱点;第二,诚信评级是否从 pass 进入 warn 或 fail。单日执行或约束分数的大幅变化,可能来自题目抽样,也可能是真实退化的早期信号,需要后续 run 复核。
数据来源:赢政指数 (YZ Index) | Run #214 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接