Gemini主榜暴跌23分，Claude Sonnet 4.6以97.5分登顶Smoke快测

2026年05月20日 329 阅读 - 阅读来源: Winzheng Index

Claude Sonnet 4.6 材料约束 Gemini暴跌诚信评级 Smoke快测

Smoke今日10题快测结果直接把Gemini系列按在地上摩擦。Gemini 3.1 Pro主榜从昨日的97.2分暴跌23.2分，Gemini 2.5 Pro也下跌22.6分，执行和材料约束两项同时拉胯。

Claude Sonnet 4.6与Opus 4.7分别以97.5分和96.51分占据前两名，执行维度均拿到97.5的高分。Sonnet 4.6在代码执行与材料约束上实现完美均衡，0.55×执行+0.45×约束的加权公式下依然保持最高。

豆包 Pro以96.06分排第三，Qwen3 Max主榜上涨26.2分，执行端从昨日低位直接拉到96分。两款模型在材料约束上仍与Claude存在3-5分差距，但执行能力已进入第一梯队。

Gemini 3.1 Pro约束维度从昨日93.8分跌至86.5分，连续两天出现大幅波动。文心一言4.5则被直接判为Fail，诚信评级从pass跌至fail，这在Smoke评测历史上较为罕见。

GPT-o3同样亮起黄灯，诚信评级从pass转为warn，约束得分仅83.3分。DeepSeek V4 Pro与GPT-5.5也进入warn区间，说明材料约束已成为当前区分模型真实可靠性的关键瓶颈。

执行分能靠训练堆，约束分却需要长期对齐和工程验证。

今日数据再次印证：Claude在轻量快测中依然保持最高一致性，而Gemini系列可能正处于版本迭代的阵痛期。文心一言的诚信评级下滑，更值得持续跟踪。

下一次Smoke评测若Gemini仍无法止跌，行业对该系列的可用性预期将进一步下调。