Gemini 2.5 Pro 主榜暴跌35.6分，DeepSeek V4 Pro 登顶 Smoke 评测

May 26, 2026 69 approx.3min Winzheng Index

DeepSeek V4 Pro 材料约束 Gemini 2.5 Pro Smoke 轻量评测模型波动

Smoke 轻量评测今日凌晨数据直接把 Gemini 2.5 Pro 打回原形，主榜仅剩 61.03 分，执行维度从 100 跌到 50，材料约束也下滑 18 分，诚信评级从 pass 转为 warn。这不是小幅波动，而是执行能力出现系统性失效。

前两名差距仅 0.23 分

DeepSeek V4 Pro 以 95.28 分占据第一，代码执行 100 分、材料约束 89.5 分（warn）。GPT-o3 紧随其后 95.05 分，同样执行满分、约束 89 分（warn）。两者差距不到 0.3 分，核心差异仅在材料约束 0.5 分。这说明当前顶级模型在代码执行上已普遍达到天花板，真正拉开差距的是对给定材料的严格遵循能力。

材料约束集体下滑成主旋律

今日最显著的异常是多款模型材料约束分数集体跳水。Claude Sonnet 4.6 约束分暴跌 22 分，GPT-5.5 下跌 15 分，Grok 4 同样掉 15.8 分。豆包 Pro 也从昨日高位回落 13.3 分。这些模型执行分依然维持 100，却在材料约束上丢分，指向测试集中新增的“严格引用材料”题目对模型产生了明显干扰。

文心一言 4.5 则逆势上涨 27.3 分，执行分从 50 回升至 100，显示其在代码任务上做了针对性优化。但诚信评级同时从 pass 转为 warn，说明模型在一致性上出现新问题。

异常背后的可能驱动因素

Gemini 2.5 Pro 的断崖式下跌极不寻常。执行分直接减半，结合材料约束同步下滑，极大概率是今日凌晨的模型版本更新引入了新对齐策略，导致模型在需要严格按材料作答的场景下过度保守或直接拒绝回答。行业内类似情况此前在 Claude 系列更新时也出现过，通常需要 2-3 天才能恢复。

多模型材料约束同时走低，还可能与 Smoke 今日题库中加入更多“长上下文+精确引用”混合题有关。这类题目对模型的 grounding 能力要求更高，暴露了此前高分模型的真实短板。

执行满分已成标配，材料约束才是下一阶段的真正战场。

今日排名显示，DeepSeek V4 Pro 和 GPT-o3 已把材料约束做到 89 分区间，其余模型仍停留在 74-79 分。差距在持续拉大。

预计未来 48 小时内，Gemini 2.5 Pro 若不能快速回血，其在开发者社区的信任度将进一步受损。而 DeepSeek V4 Pro 凭借稳定满分执行，已在工程落地场景中建立明显优势。

数据来源：赢政指数 (YZ Index) | Run #132 | 查看原始数据

前两名差距仅 0.23 分

材料约束集体下滑成主旋律

异常背后的可能驱动因素

Related Articles