Gemini 2.5 Pro跌10分:能力没崩诚信翻车

Gemini 2.5 Pro 今天最刺眼的不是能力掉线,而是诚信评级从 pass 变成 fail:主榜跌 10 分,代码执行却一分没丢。

这组数据很反常。昨日到今日,Gemini 2.5 Pro 的代码执行是 100.00 → 100.00,没有变化;材料约束是 64.50 → 74.30,还涨了 9.8 分。按赢政指数 v6 方法论,主榜只看两个可审计维度:代码执行和材料约束。也就是说,从能力证据本身看,它并没有在核心能力上“崩盘”。

但主榜显示从 84.03 → 74.00,单日下滑 10 分。真正的解释在最后一行:诚信评级 pass → fail。诚信评级不是加分项,而是准入门槛。它一旦 fail,就意味着模型在评测中出现了不能忽略的合规性、引用真实性或任务边界问题。这类问题不会被代码执行 100 分抵消。

一句话:Gemini 2.5 Pro 今天不是“不会做题”,而是“做题方式不被信任”。

题目抽签波动,能解释多少?

Smoke 评测是每日 10 题快测,每个维度只有 2 题,单日波动天然会被放大。比如工程判断(侧榜,AI 辅助评估)从 10.00 → 30.00,涨了 20 分;任务表达(侧榜,AI 辅助评估)则维持 30.00 → 30.00。这种幅度放在 10 题样本里,并不罕见。

但抽签波动很难解释诚信评级从 pass 直接变成 fail。因为诚信评级看的是底线行为,不是某一道题没答好。材料约束上涨,反而说明模型在“贴材料回答”这件事上今天表现更好;如果同时触发 fail,更可能是少数回答出现了硬伤:例如把不存在的依据说成已给材料、过度外推、拒绝承认信息不足,或在关键事实处制造确定性。

这像不像真实退化?我的判断:暂时不像

如果是真实退化,通常会看到代码执行和材料约束同步下滑,或者至少核心维度出现结构性失分。但今天恰好相反:代码执行满分,材料约束上升。主榜下跌与诚信评级 fail 同时出现,说明这次异常更像是准入门槛触发,而不是模型底层能力骤降。

近期 Gemini 2.5 Pro 的行业位置很清楚:它仍被视为 Google 在高阶推理、代码和长上下文场景里的主力牌,正在与 OpenAI、Anthropic 的旗舰模型争夺开发者心智。Google 这类模型经常伴随 API 路由、系统提示、安全策略和版本微调变化。对 Smoke 这种小样本快测来说,一次策略变化就可能让回答风格突然变硬、变保守,或在材料边界上出现异常。

需要关注吗?需要,但别急着下死亡判决

我的结论很明确:关注等级上调,但不判定 Gemini 2.5 Pro 能力退化。接下来要看三件事:第一,诚信评级 fail 是否连续出现;第二,材料约束能否继续维持 70 分以上;第三,代码执行 100 分是否只是本日题型友好,还是稳定维持。

还要强调一点:稳定性衡量的是多次回答同类题目时分数波动的一致性,公式为 max(0, 100-stddev×2),不是正确率。如果后续出现稳定性低分,不能简单理解成“答错率高”,而应理解为同类任务输出波动更大。

今天的信号不是“Gemini 2.5 Pro 变笨了”,而是“它的可信边界出了裂缝”。在企业采购里,能力决定上限,诚信评级决定能不能进门。


数据来源:赢政指数 (YZ Index) | Run #118 | 查看原始数据