Gemini 3.1 Pro主榜暴跌8.5分，代码执行狂降9.5究竟是抽签还是退化

2026年05月22日 404 阅读 - 阅读来源: Winzheng Index

Gemini 3.1 Pro 代码执行 Smoke快测模型波动 Google AI

Gemini 3.1 Pro在今日Smoke评测中主榜直接跌掉8.5分，代码执行维度从66.70暴降至57.20，材料约束也从86.30滑落到79.00。这一单日跌幅在每日仅10题的快测中已属极端。

Smoke评测每天随机抽取2题/维度，样本量小导致单日标准差容易放大。代码执行维度跌9.5分，极有可能是当天抽中了对数计算、递归优化这类高难度题目。若模型在复杂多步推理上出现中间步骤跳跃，就会直接拉低分数。

材料约束维度跌7.3分则更值得警惕。该维度主要考察模型是否严格遵守用户提供的材料边界，今日题目可能包含大量易混淆的外部知识。若Gemini 3.1 Pro出现过度外推，就会被扣分。

工程判断（侧榜，AI辅助评估）从58.40跌到50.00，任务表达却从30.00大幅升至50.00。同一模型在同一天内出现如此剧烈的维度反向波动，说明其输出一致性已明显降低。结合稳定性仅31.7分的事实，可以判断Gemini 3.1 Pro当前回答质量存在较大随机性。

Google近期正集中资源推进Gemini 2.5系列与原生多模态能力，3.1 Pro版本的迭代节奏明显放缓。部分开发者反馈，在处理长链代码调试时，模型开始频繁省略中间验证步骤，这与今日代码执行维度崩盘的表现高度吻合。

同时，OpenAI o1与Anthropic Claude 4在代码基准上的持续领先，也让Google在工程落地层面的压力骤增。资源分配倾斜可能导致3.1 Pro在某些子能力上出现暂时性“失血”。

综合来看，此次跌幅主要由题目抽签波动与模型一致性下降共同造成，并非系统性能力退化。但连续两周出现同类维度波动时，就需要启动更长周期的7日均值追踪。目前判断为“观察期”，而非“警报期”。

如果Gemini 3.1 Pro在下周Smoke评测中代码执行仍无法回到62分以上，开发者应考虑在生产环境代码生成任务中降低对其依赖。