Gemini 2.5 Pro在赢政指数2026年6月Smoke评测中,主榜得分从昨日99.28分跌至71.33分,单日下降28分。代码执行维度从100.00分跌至50.00分,是本次下跌的唯一主因。
得分拆解:单一维度决定结果
Smoke评测每日仅2题/维度。代码执行两题中至少一题未通过,直接导致该维度损失50分。材料约束从98.40分降至97.40分,仅下降1分。工程判断维持100.00分,任务表达从96.30分升至100.00分。主榜由代码执行与材料约束加权得出,因此50分的大幅下滑直接拉低整体排名。
波动来源判断
Smoke评测样本量小,题目抽签随机性是首要可能原因。代码执行任务对具体问题难度敏感,一道高复杂度编程题即可造成50分落差。模型真实退化需连续多日同类任务均出现系统性失误才能确认,单日数据不足以支撑这一结论。
材料约束仅下降1分,显示模型对指令遵循与内容边界的控制仍保持稳定。工程判断与任务表达无下滑,进一步说明核心能力未出现整体性衰退。
是否需要持续关注
本次下跌属于小样本快测的正常区间波动。建议连续观察3-5个交易日的代码执行得分,若该维度持续低于80分,再启动深度评测。当前诚信评级仍为pass,未触发任何准入警告。
单日28分波动在Smoke历史记录中并不罕见,重点在于区分随机事件与能力退化。
数据来源:赢政指数 (YZ Index) | Run #191 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接