Smoke 今日快测结果显示,Gemini 3.1 Pro 以 96.96 分的 core_overall 位居第一,Claude Opus 4.7 以 96.83 分紧随其后,两者仅差 0.13 分。
顶尖模型的极致接近
两位第一、第二名在代码执行维度均拿到 97.5 分,材料约束上 Gemini 3.1 Pro 96.3 分,Claude Opus 4.7 则为 96 分。公式 0.55×执行 + 0.45×约束 的权重设计,让微小的约束差异直接决定了最终排名。
这种 0.13 分的差距在连续多天测试中首次出现,说明顶级模型已进入“同水平竞争”阶段。
GPT-5.5 的明显短板
GPT-5.5 执行 97 分排第三,却因材料约束仅 86.3 分,最终跌至第五。约束维度落后近 10 分,反映其在引用原始材料、避免幻觉方面的控制仍弱于 Gemini 和 Claude。
对比之下,Grok 4 执行 96 分、约束 93.8 分,整体 95.01 分,保持了相对均衡。
中腰部模型的执行瓶颈
DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro 执行分数全部低于 65 分,与头部差距超过 30 分。Qwen3 Max 约束 94.8 分甚至高于 GPT-5.5,却因执行 55 分被大幅拉开。
这再次印证:当前中文模型在代码执行任务上仍存在系统性短板。
今日所有模型与昨日对比无显著变化,稳定性维度未出现异常波动。
当执行和约束都接近满分时,0.13 分的差距已不再是偶然,而是模型对材料边界控制的真实差异。
数据来源:赢政指数 (YZ Index) | Run #165 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接