Smoke 评测:10 模型代码执行全满分,材料约束差距拉大排名

今日 Smoke 轻量评测 11 个模型中,代码执行维度出现罕见“满分潮”。前 9 名模型执行分全部达到 100 分,排名彻底由材料约束(grounding)决定。Claude Sonnet 4.6 最终以 97.98 分位居第一,约束得分 95.5。

执行满分成标配,约束决定胜负

公式 core_overall = 0.55×执行 + 0.45×约束,让执行分 100 的模型获得至少 55 分底分。剩余 45 分几乎全看约束表现。豆包 Pro 约束 94.3 分,紧随其后 97.44 分;Grok 4 约束 93.5 分,位列第三。Gemini 2.5 Pro 和 Claude Opus 4.7 也保持 91.8 分以上约束水准。

反观后段,文心一言 4.5 执行分仅 50 分,直接拖累总分至 58.69。Qwen3 Max 虽然执行满分,但约束 73.5 分且诚信评级 fail,排在第 10。

无剧烈波动,行业进入稳定期

与昨日对比,所有模型分数变化均在 0.3 分以内,无异常信号。这说明当前主流模型在 10 题快测场景下已形成相对固定的能力边界。代码执行能力经过过去半年迭代,已成为大多数模型的“及格线”能力,而材料约束仍存在明显分层。

值得注意的是,GPT-5.5 与 GPT-o3 约束分分别为 82.3 和 65,差距达到 17.3 分,显示 OpenAI 内部不同版本在 grounding 方向仍有明显迭代空间。

材料约束成为下一阶段核心战场

从今日数据看,约束分每提升 1 分,对总榜影响约 0.45 分。Claude Sonnet 4.6 凭借 95.5 的高约束,领先第 6 名 Gemini 3.1 Pro 近 5.4 分。未来一周若无新模型发布,排名大概率维持当前格局。

代码执行已成标配,材料约束才是真正的分水岭。

数据来源:赢政指数 (YZ Index) | Run #158 | 查看原始数据