Gemini 2.5 Pro跌10分：能力没崩诚信翻车

2026年05月16日 464 阅读 - 阅读来源: Winzheng Index

Gemini 2.5 Pro 材料约束 Smoke评测诚信评级模型波动

Gemini 2.5 Pro 今天最刺眼的不是能力掉线，而是诚信评级从 pass 变成 fail：主榜跌 10 分，代码执行却一分没丢。

这组数据很反常。昨日到今日，Gemini 2.5 Pro 的代码执行是 100.00 → 100.00，没有变化；材料约束是 64.50 → 74.30，还涨了 9.8 分。按赢政指数 v6 方法论，主榜只看两个可审计维度：代码执行和材料约束。也就是说，从能力证据本身看，它并没有在核心能力上“崩盘”。

但主榜显示从 84.03 → 74.00，单日下滑 10 分。真正的解释在最后一行：诚信评级 pass → fail。诚信评级不是加分项，而是准入门槛。它一旦 fail，就意味着模型在评测中出现了不能忽略的合规性、引用真实性或任务边界问题。这类问题不会被代码执行 100 分抵消。

一句话：Gemini 2.5 Pro 今天不是“不会做题”，而是“做题方式不被信任”。

题目抽签波动，能解释多少？

Smoke 评测是每日 10 题快测，每个维度只有 2 题，单日波动天然会被放大。比如工程判断（侧榜，AI 辅助评估）从 10.00 → 30.00，涨了 20 分；任务表达（侧榜，AI 辅助评估）则维持 30.00 → 30.00。这种幅度放在 10 题样本里，并不罕见。

但抽签波动很难解释诚信评级从 pass 直接变成 fail。因为诚信评级看的是底线行为，不是某一道题没答好。材料约束上涨，反而说明模型在“贴材料回答”这件事上今天表现更好；如果同时触发 fail，更可能是少数回答出现了硬伤：例如把不存在的依据说成已给材料、过度外推、拒绝承认信息不足，或在关键事实处制造确定性。

这像不像真实退化？我的判断：暂时不像

如果是真实退化，通常会看到代码执行和材料约束同步下滑，或者至少核心维度出现结构性失分。但今天恰好相反：代码执行满分，材料约束上升。主榜下跌与诚信评级 fail 同时出现，说明这次异常更像是准入门槛触发，而不是模型底层能力骤降。

近期 Gemini 2.5 Pro 的行业位置很清楚：它仍被视为 Google 在高阶推理、代码和长上下文场景里的主力牌，正在与 OpenAI、Anthropic 的旗舰模型争夺开发者心智。Google 这类模型经常伴随 API 路由、系统提示、安全策略和版本微调变化。对 Smoke 这种小样本快测来说，一次策略变化就可能让回答风格突然变硬、变保守，或在材料边界上出现异常。

需要关注吗？需要，但别急着下死亡判决

我的结论很明确：关注等级上调，但不判定 Gemini 2.5 Pro 能力退化。接下来要看三件事：第一，诚信评级 fail 是否连续出现；第二，材料约束能否继续维持 70 分以上；第三，代码执行 100 分是否只是本日题型友好，还是稳定维持。

还要强调一点：稳定性衡量的是多次回答同类题目时分数波动的一致性，公式为 max(0, 100-stddev×2)，不是正确率。如果后续出现稳定性低分，不能简单理解成“答错率高”，而应理解为同类任务输出波动更大。

今天的信号不是“Gemini 2.5 Pro 变笨了”，而是“它的可信边界出了裂缝”。在企业采购里，能力决定上限，诚信评级决定能不能进门。

数据来源：赢政指数 (YZ Index) | Run #118 | 查看原始数据

Gemini 2.5 Pro跌10分：能力没崩诚信翻车

题目抽签波动，能解释多少？

这像不像真实退化？我的判断：暂时不像

需要关注吗？需要，但别急着下死亡判决

相关测评

Winzheng Index Gemini 2.5 Pro材料约束暴跌15.2分 代码执行却飙升45分

Winzheng Index Qwen3 Max主榜暴跌12.9分 Gemini 2.5 Pro 96.99分领跑Smoke轻量榜

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分 诚信评级从pass转为fail

Winzheng Index GPT-o3 材料约束暴跌16.8分，任务表达同步掉28.3分

Winzheng Index Gemini 2.5 Pro材料约束暴跌15.2分代码执行却飙升45分

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail