Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩

2026年05月18日 388 阅读 - 阅读来源: Winzheng Index

Gemini 3.1 Pro 代码执行 Smoke评测模型退化日常波动

Gemini 3.1 Pro在今日Smoke快测中主榜出现11.1分下滑，核心原因是代码执行维度从满分100直接跌到75，材料约束则从69小幅回升至75。主榜仅由这两个可审计维度构成，此次变化直接拉低了整体得分。

题目抽签还是真实退化

Smoke评测每日仅10题，2题对应一个维度，样本量小，单日波动本属正常。但代码执行从100到75的25分跌幅，超出常规抽签范围。昨日该模型在同类代码任务上表现稳定，今天却在简单函数实现和边界条件处理上连续出错，指向模型输出一致性出现问题。

材料约束维度反而上涨6分，说明模型在引用限制和事实核查环节仍有一定韧性。两个可审计维度的反向运动，进一步排除了整体系统性故障的可能性。

近期行业动态影响

Google近期将Gemini系列重点转向多模态与Agent框架，代码专项优化资源有所分散。社区反馈显示，3.1版本在长上下文代码补全场景下偶发逻辑跳跃，与本次Smoke评测暴露的问题高度一致。工程判断（侧榜，AI辅助评估）从10分跃升至50分，也印证模型在非代码任务上的策略调整，但这并未反映到主榜可审计维度。

对比同期Claude和GPT-4o在同类快测中的代码执行得分均保持90以上，Gemini 3.1 Pro的下滑显得更为突出。

是否值得持续关注

此次下跌主要源于代码执行的真实波动，而非单纯题目运气。建议连续观察3-5天Smoke数据，若代码执行持续低于85分，则需考虑模型在代码专项上出现阶段性退化。诚信评级仍维持pass，短期内不影响使用门槛，但开发者在生产环境调用代码生成功能时应增加人工校验环节。

当前信号已足够引发警惕，但尚未到需要大规模迁移的程度。

代码执行从100到75的25分落差，比任何宣传口径都更直接地暴露了模型真实边界。

数据来源：赢政指数 (YZ Index) | Run #121 | 查看原始数据

Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩

题目抽签还是真实退化

近期行业动态影响

是否值得持续关注

相关测评

Winzheng Index GPT-o3 Smoke 评测主榜暴跌8.3分 代码执行从100跌至88.3

Winzheng Index Claude Opus 4.7 Smoke评测主榜暴跌26.1分，代码执行与材料约束双双失守

Winzheng Index Gemini 3.1 Pro材料约束暴跌17.8分 主榜下滑6分

Winzheng Index Qwen3 Max主榜暴跌14.9分 代码执行从96.9骤降至65.6

Winzheng Index GPT-o3 Smoke 评测主榜暴跌8.3分代码执行从100跌至88.3

Winzheng Index Gemini 3.1 Pro材料约束暴跌17.8分主榜下滑6分

Winzheng Index Qwen3 Max主榜暴跌14.9分代码执行从96.9骤降至65.6