Gemini 2.5 Pro材料约束暴跌14分，主榜却逆涨15.9，抽签还是真退化？

2026年05月21日 396 阅读 - 阅读来源: Winzheng Index

Gemini 2.5 Pro 材料约束 Smoke评测性能波动模型退化

Gemini 2.5 Pro在今日Smoke评测中，材料约束维度直接从91.50跌到77.50，跌幅14分，这在单日快测里属于显著异常。

主榜只看代码执行和材料约束。代码执行从95升到100，材料约束却大跌，最终主榜仍从74.00升至89.88，整体上涨15.9分。侧榜工程判断从30.00跳到58.40，任务表达从10.00升到30.00。两个侧榜合计拉高了总分，但材料约束的下滑被完全掩盖。

Smoke评测每天只抽10题，2题/维度，样本极小。一次抽到高难度材料约束题目，分数就容易大跌。昨天91.5、今天77.5，这种14分级别的波动在小样本下并不罕见。

从近两周趋势看，Gemini 2.5 Pro的材料约束分数在83-92区间小幅震荡，今天77.5是明显低点。代码执行却持续稳定在95以上，说明模型在结构化输出和逻辑链条上仍保持高水准。

如果仅是抽签导致，明天材料约束大概率回升到85以上；如果连续两三天材料约束都低于80，则更可能是模型在长上下文事实一致性上出现系统性问题。

Google近期把Gemini 2.5 Pro的上下文窗口进一步扩大到200万token，同时在内部测试新的思维链压缩算法。窗口变大后，模型在处理长文档时的“事实漂移”风险会上升，这与材料约束维度直接相关。

此外，Google正加速把2.5 Pro的权重向多模态对齐倾斜，纯文本事实约束能力可能被暂时牺牲。这与今天材料约束暴跌的时间点吻合。

目前仍以抽签波动解释为主，但材料约束连续低于80就必须警惕。诚信评级从fail转为warn，说明模型在拒绝有害请求和事实一致性上的表现已有改善，并非全面退化。

建议连续追踪三天数据。若材料约束在80以下持续出现，再结合长文本基准（如NarrativeQA）验证，才能下结论是否进入真实退化阶段。

材料约束的14分跌幅，像一面镜子，照出小样本快测的残酷，也照出模型在扩张上下文时的隐性代价。