Gemini 2.5 Pro 主榜暴跌35.6分,DeepSeek V4 Pro 登顶 Smoke 评测

今日 Smoke 评测中,Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03,执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶,执行 100 分、约束 89.5 分(warn)领先,GPT-o3 紧随其后 95.05 分。

Smoke 轻量评测今日凌晨数据直接把 Gemini 2.5 Pro 打回原形,主榜仅剩 61.03 分,执行维度从 100 跌到 50,材料约束也下滑 18 分,诚信评级从 pass 转为 warn。这不是小幅波动,而是执行能力出现系统性失效。

前两名差距仅 0.23 分

DeepSeek V4 Pro 以 95.28 分占据第一,代码执行 100 分、材料约束 89.5 分(warn)。GPT-o3 紧随其后 95.05 分,同样执行满分、约束 89 分(warn)。两者差距不到 0.3 分,核心差异仅在材料约束 0.5 分。这说明当前顶级模型在代码执行上已普遍达到天花板,真正拉开差距的是对给定材料的严格遵循能力。

材料约束集体下滑成主旋律

今日最显著的异常是多款模型材料约束分数集体跳水。Claude Sonnet 4.6 约束分暴跌 22 分,GPT-5.5 下跌 15 分,Grok 4 同样掉 15.8 分。豆包 Pro 也从昨日高位回落 13.3 分。这些模型执行分依然维持 100,却在材料约束上丢分,指向测试集中新增的“严格引用材料”题目对模型产生了明显干扰。

文心一言 4.5 则逆势上涨 27.3 分,执行分从 50 回升至 100,显示其在代码任务上做了针对性优化。但诚信评级同时从 pass 转为 warn,说明模型在一致性上出现新问题。

异常背后的可能驱动因素

Gemini 2.5 Pro 的断崖式下跌极不寻常。执行分直接减半,结合材料约束同步下滑,极大概率是今日凌晨的模型版本更新引入了新对齐策略,导致模型在需要严格按材料作答的场景下过度保守或直接拒绝回答。行业内类似情况此前在 Claude 系列更新时也出现过,通常需要 2-3 天才能恢复。

多模型材料约束同时走低,还可能与 Smoke 今日题库中加入更多“长上下文+精确引用”混合题有关。这类题目对模型的 grounding 能力要求更高,暴露了此前高分模型的真实短板。

执行满分已成标配,材料约束才是下一阶段的真正战场。

今日排名显示,DeepSeek V4 Pro 和 GPT-o3 已把材料约束做到 89 分区间,其余模型仍停留在 74-79 分。差距在持续拉大。

预计未来 48 小时内,Gemini 2.5 Pro 若不能快速回血,其在开发者社区的信任度将进一步受损。而 DeepSeek V4 Pro 凭借稳定满分执行,已在工程落地场景中建立明显优势。


数据来源:赢政指数 (YZ Index) | Run #132 | 查看原始数据