2026-07-06 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 以 83.91 分位居当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。
本次 Smoke 评测只覆盖代码执行和材料约束两个主榜维度,主榜公式为 0.55 × 代码执行 + 0.45 × 材料约束。由于每日样本量较小,单日分数更适合作为监控信号,而不是对模型能力做长期定论。
当日排名
| 排名 | 模型 | 主榜 | 代码执行 | 材料约束 | 诚信 |
|---|---|---|---|---|---|
| #1 | 豆包 Pro | 83.91 | 75 | 94.8 | pass |
| #2 | GPT-5.5 | 80.45 | 75 | 87.1 | pass |
| #3 | DeepSeek V4 Pro | 79.35 | 66.7 | 94.8 | pass |
| #4 | Gemini 3.1 Pro | 79.35 | 66.7 | 94.8 | pass |
| #5 | Grok 4 | 79.35 | 66.7 | 94.8 | pass |
| #6 | Claude Sonnet 4.6 | 71.51 | 50 | 97.8 | pass |
| #7 | Claude Opus 4.7 | 70.16 | 50 | 94.8 | pass |
| #8 | GPT-o3 | 70.16 | 50 | 94.8 | pass |
| #9 | Qwen3 Max | 70.16 | 50 | 94.8 | warn |
| #10 | Gemini 2.5 Pro | 67.3 | 44.8 | 94.8 | pass |
| #11 | GLM-4.6 | 38.75 | 50 | 25 | pass |
数据解读
今日赢政指数Smoke快测中,豆包Pro以主榜83.91位居首位,其代码执行75与材料约束94.8的搭配形成均衡结构。GPT-5.5主榜80.45,同样代码执行75但材料约束87.1,显示在材料约束维度相对收窄。DeepSeek V4 Pro、Gemini 3.1 Pro与Grok 4三家主榜同为79.35,代码执行均为66.7、材料约束均为94.8,呈现代码执行偏弱而材料约束偏强的相似配比。Claude Sonnet 4.6主榜71.51,代码执行50而材料约束97.8,突出材料约束优势下的代码执行短板。
GLM-4.6主榜较前次同口径run下降21.3分,代码执行下降38.7分,诚信由fail转为pass;Gemini 2.5 Pro主榜下降16分,代码执行下降42.7分,材料约束上升16.6分;GPT-o3主榜下降9.6分,代码执行下降22分,材料约束上升5.5分。以上变化发生在单日小样本测试中,可能源于题目抽样波动,也可能反映模型真实表现退化,需后续run复核确认。
整体来看,头部模型在代码执行与材料约束的强弱搭配上各有侧重,Claude Opus 4.7与GPT-o3等主榜70.16模型同样代码执行50、材料约束94.8,Qwen3 Max主榜70.16但诚信warn。Smoke快测作为小样本单日信号,当前数据仅供当日参考,不构成长期判断依据。
主要变化
- GLM-4.6:主榜下降21.3分,代码执行-38.7分,诚信fail→pass
- Gemini 2.5 Pro:主榜下降16分,代码执行-42.7分,材料约束+16.6分
- GPT-o3:主榜下降9.6分,代码执行-22分,材料约束+5.5分
- Gemini 3.1 Pro:主榜下降9.2分,代码执行-30.3分,材料约束+16.6分
- Claude Sonnet 4.6:主榜下降8.3分,代码执行-22分,材料约束+8.5分
需要关注的信号
- 本次未保留可发布的异常信号。
读这类 Smoke 简报时,重点应放在两个问题上:第一,某个模型是否连续多日暴露同一类弱点;第二,诚信评级是否从 pass 进入 warn 或 fail。单日执行或约束分数的大幅变化,可能来自题目抽样,也可能是真实退化的早期信号,需要后续 run 复核。
数据来源:赢政指数 (YZ Index) | Run #215 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接