Gemini 3.1 Pro在今日Smoke评测中主榜直接跌掉8.5分,代码执行维度从66.70暴降至57.20,材料约束也从86.30滑落到79.00。这一单日跌幅在每日仅10题的快测中已属极端。
波动来源:抽签还是真实退化
Smoke评测每天随机抽取2题/维度,样本量小导致单日标准差容易放大。代码执行维度跌9.5分,极有可能是当天抽中了对数计算、递归优化这类高难度题目。若模型在复杂多步推理上出现中间步骤跳跃,就会直接拉低分数。
材料约束维度跌7.3分则更值得警惕。该维度主要考察模型是否严格遵守用户提供的材料边界,今日题目可能包含大量易混淆的外部知识。若Gemini 3.1 Pro出现过度外推,就会被扣分。
侧榜数据透露出不一致信号
工程判断(侧榜,AI辅助评估)从58.40跌到50.00,任务表达却从30.00大幅升至50.00。同一模型在同一天内出现如此剧烈的维度反向波动,说明其输出一致性已明显降低。结合稳定性仅31.7分的事实,可以判断Gemini 3.1 Pro当前回答质量存在较大随机性。
近期行业动态叠加影响
Google近期正集中资源推进Gemini 2.5系列与原生多模态能力,3.1 Pro版本的迭代节奏明显放缓。部分开发者反馈,在处理长链代码调试时,模型开始频繁省略中间验证步骤,这与今日代码执行维度崩盘的表现高度吻合。
同时,OpenAI o1与Anthropic Claude 4在代码基准上的持续领先,也让Google在工程落地层面的压力骤增。资源分配倾斜可能导致3.1 Pro在某些子能力上出现暂时性“失血”。
是否需要重点关注
综合来看,此次跌幅主要由题目抽签波动与模型一致性下降共同造成,并非系统性能力退化。但连续两周出现同类维度波动时,就需要启动更长周期的7日均值追踪。目前判断为“观察期”,而非“警报期”。
如果Gemini 3.1 Pro在下周Smoke评测中代码执行仍无法回到62分以上,开发者应考虑在生产环境代码生成任务中降低对其依赖。
数据来源:赢政指数 (YZ Index) | Run #127 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接