Gemini 2.5 Pro在今日Smoke评测中主榜直接失去22.6分,核心执行维度从100分跌到95分,材料约束也小幅下滑。这一看似“正常波动”的结果,实则暴露了更深层的问题。
抽签波动还是真实退化?
Smoke评测每日仅10题,每维度2题,单日分数标准差本就较大。但本次工程判断从66.7暴跌至30、任务表达从50直接掉到10,降幅远超历史均值。执行和材料约束的微降可以归因于题目难度抽签,而侧榜两个维度同时崩盘,更像是模型在面对需要工程权衡或清晰任务输出的题目时,回答一致性显著下降。
赢政指数的稳定性维度已显示Gemini 2.5 Pro近期分数标准差偏高,这意味着它在同类问题上的表现并不稳定。今日的侧榜崩盘,很可能正是这种不稳定性的集中爆发,而非单纯的题目运气问题。
行业动态印证了什么
近期Google对Gemini系列的迭代重点放在安全对齐与拒绝机制上。多个开发者反馈,模型在需要给出具体工程建议或多方案对比时,越来越倾向于给出模糊、 disclaimers过多的回答。这种“安全优先”的调整,直接影响了工程判断和任务表达两个侧榜维度。
同时,Gemini 2.5 Pro在复杂代码执行场景中也开始出现更多中间步骤省略的情况,导致执行维度也出现小幅扣分。今日诚信评级从pass转为fail,更可能是因为模型在部分题目中出现前后矛盾或拒绝回答核心问题的表现。
是否需要重点关注
主榜仍由代码执行和材料约束主导,今日这两项虽有下滑但仍在高位,说明模型基础能力并未全面崩盘。但工程判断和任务表达的腰斩式下跌,以及诚信评级直接fail,已经超出正常抽签波动范围。
对于依赖Gemini进行工程方案设计或结构化输出的用户来说,今日数据释放了明确信号:模型当前版本在需要复杂判断和清晰表达的场景下,一致性已明显降低。短期内建议降低对其工程决策输出的信任权重,等待下一次版本更新或更大样本的复测结果。
22.6分的主榜跌幅或许能用抽签解释,但30分的工程判断崩盘和fail的诚信评级,已经无法再用“运气”二字掩盖。
数据来源:赢政指数 (YZ Index) | Run #124 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接