Gemini 3.1 Pro 96.96 分微弱领先，Claude Opus 4.7 仅差 0.13

2026年06月12日 419 阅读 - 阅读来源: Winzheng Index

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距模型稳定性

Smoke 今日快测结果显示，Gemini 3.1 Pro 以 96.96 分的 core_overall 位居第一，Claude Opus 4.7 以 96.83 分紧随其后，两者仅差 0.13 分。

两位第一、第二名在代码执行维度均拿到 97.5 分，材料约束上 Gemini 3.1 Pro 96.3 分，Claude Opus 4.7 则为 96 分。公式 0.55×执行 + 0.45×约束的权重设计，让微小的约束差异直接决定了最终排名。

如此微小的差距，说明顶级模型在这两个核心维度上已进入“同水平竞争”阶段。

GPT-5.5 执行 97 分排第三，却因材料约束仅 86.3 分，最终跌至第五。约束维度落后近 10 分，反映其在引用原始材料、避免幻觉方面的控制仍弱于 Gemini 和 Claude。

对比之下，Grok 4 执行 96 分、约束 93.8 分，整体 95.01 分，保持了相对均衡。

DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro 执行分数均不超过 65 分，与头部差距超过 30 分。Qwen3 Max 约束 94.8 分甚至高于 GPT-5.5，却因执行 55 分被大幅拉开。

这再次印证：当前中文模型在代码执行任务上仍存在系统性短板。

需要说明的是，今日为 v6.3 评分口径的首次运行，与此前成绩不构成可比基线，环比变化将在后续同口径评测中恢复呈现。

当执行和约束都接近满分时，0.13 分的差距已不再是偶然，而是模型对材料边界控制的真实差异。