Gemini主榜暴跌23分,Claude Sonnet 4.6以97.5分登顶Smoke快测

Smoke今日10题快测结果直接把Gemini系列按在地上摩擦。Gemini 3.1 Pro主榜从昨日的97.2分暴跌23.2分,Gemini 2.5 Pro也下跌22.6分,执行和材料约束两项同时拉胯。

Claude双雄稳居前二,执行端几乎满分

Claude Sonnet 4.6与Opus 4.7分别以97.5分和96.51分占据前两名,执行维度均拿到97.5的高分。Sonnet 4.6在代码执行与材料约束上实现完美均衡,0.55×执行+0.45×约束的加权公式下依然保持最高。

国产模型集体上位,Qwen与豆包涨幅惊人

豆包 Pro以96.06分排第三,Qwen3 Max主榜上涨26.2分,执行端从昨日低位直接拉到96分。两款模型在材料约束上仍与Claude存在3-5分差距,但执行能力已进入第一梯队。

Gemini与文心异常信号集中爆发

Gemini 3.1 Pro约束维度从昨日93.8分跌至86.5分,连续两天出现大幅波动。文心一言4.5则被直接判为Fail,诚信评级从pass跌至fail,这在Smoke评测历史上较为罕见。

GPT-o3同样亮起黄灯,诚信评级从pass转为warn,约束得分仅83.3分。DeepSeek V4 Pro与GPT-5.5也进入warn区间,说明材料约束已成为当前区分模型真实可靠性的关键瓶颈。

执行分能靠训练堆,约束分却需要长期对齐和工程验证。

今日数据再次印证:Claude在轻量快测中依然保持最高一致性,而Gemini系列可能正处于版本迭代的阵痛期。文心一言的诚信评级下滑,更值得持续跟踪。

下一次Smoke评测若Gemini仍无法止跌,行业对该系列的可用性预期将进一步下调。


数据来源:赢政指数 (YZ Index) | Run #124 | 查看原始数据