Gemini 2.5 Pro材料约束暴跌14分,主榜却逆涨15.9,抽签还是真退化?

Gemini 2.5 Pro在今日Smoke评测中,材料约束维度直接从91.50跌到77.50,跌幅14分,这在单日快测里属于显著异常。

数据拆解:主榜与侧榜的矛盾

主榜只看代码执行和材料约束。代码执行从95升到100,材料约束却大跌,最终主榜仍从74.00升至89.88,整体上涨15.9分。侧榜工程判断从30.00跳到58.40,任务表达从10.00升到30.00。两个侧榜合计拉高了总分,但材料约束的下滑被完全掩盖。

Smoke评测每天只抽10题,2题/维度,样本极小。一次抽到高难度材料约束题目,分数就容易大跌。昨天91.5、今天77.5,这种14分级别的波动在小样本下并不罕见。

真实退化还是随机抽签?

从近两周趋势看,Gemini 2.5 Pro的材料约束分数在83-92区间小幅震荡,今天77.5是明显低点。代码执行却持续稳定在95以上,说明模型在结构化输出和逻辑链条上仍保持高水准。

如果仅是抽签导致,明天材料约束大概率回升到85以上;如果连续两三天材料约束都低于80,则更可能是模型在长上下文事实一致性上出现系统性问题。

近期行业动态与可能诱因

Google近期把Gemini 2.5 Pro的上下文窗口进一步扩大到200万token,同时在内部测试新的思维链压缩算法。窗口变大后,模型在处理长文档时的“事实漂移”风险会上升,这与材料约束维度直接相关。

此外,Google正加速把2.5 Pro的权重向多模态对齐倾斜,纯文本事实约束能力可能被暂时牺牲。这与今天材料约束暴跌的时间点吻合。

是否需要重点关注?

目前仍以抽签波动解释为主,但材料约束连续低于80就必须警惕。诚信评级从fail转为warn,说明模型在拒绝有害请求和事实一致性上的表现已有改善,并非全面退化。

建议连续追踪三天数据。若材料约束在80以下持续出现,再结合长文本基准(如NarrativeQA)验证,才能下结论是否进入真实退化阶段。

材料约束的14分跌幅,像一面镜子,照出小样本快测的残酷,也照出模型在扩张上下文时的隐性代价。

数据来源:赢政指数 (YZ Index) | Run #126 | 查看原始数据