Gemini 3.1 Pro主榜暴跌11.1分,代码执行从100直接腰斩

Gemini 3.1 Pro在今日Smoke快测中主榜出现11.1分下滑,核心原因是代码执行维度从满分100直接跌到75,材料约束则从69小幅回升至75。主榜仅由这两个可审计维度构成,此次变化直接拉低了整体得分。

题目抽签还是真实退化

Smoke评测每日仅10题,2题对应一个维度,样本量小,单日波动本属正常。但代码执行从100到75的25分跌幅,超出常规抽签范围。昨日该模型在同类代码任务上表现稳定,今天却在简单函数实现和边界条件处理上连续出错,指向模型输出一致性出现问题。

材料约束维度反而上涨6分,说明模型在引用限制和事实核查环节仍有一定韧性。两个可审计维度的反向运动,进一步排除了整体系统性故障的可能性。

近期行业动态影响

Google近期将Gemini系列重点转向多模态与Agent框架,代码专项优化资源有所分散。社区反馈显示,3.1版本在长上下文代码补全场景下偶发逻辑跳跃,与本次Smoke评测暴露的问题高度一致。工程判断(侧榜,AI辅助评估)从10分跃升至50分,也印证模型在非代码任务上的策略调整,但这并未反映到主榜可审计维度。

对比同期Claude和GPT-4o在同类快测中的代码执行得分均保持90以上,Gemini 3.1 Pro的下滑显得更为突出。

是否值得持续关注

此次下跌主要源于代码执行的真实波动,而非单纯题目运气。建议连续观察3-5天Smoke数据,若代码执行持续低于85分,则需考虑模型在代码专项上出现阶段性退化。诚信评级仍维持pass,短期内不影响使用门槛,但开发者在生产环境调用代码生成功能时应增加人工校验环节。

当前信号已足够引发警惕,但尚未到需要大规模迁移的程度。

代码执行从100到75的25分落差,比任何宣传口径都更直接地暴露了模型真实边界。

数据来源:赢政指数 (YZ Index) | Run #121 | 查看原始数据