Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

2026年06月11日 499 阅读 - 阅读来源: Winzheng Index

材料约束代码执行 Claude Sonnet 4.6 豆包 Pro Smoke 轻量评测

今日 Smoke 轻量评测 11 个模型中，代码执行维度出现罕见“满分潮”。前 9 名模型执行分全部达到 100 分，排名彻底由材料约束（grounding）决定。Claude Sonnet 4.6 最终以 97.98 分位居第一，约束得分 95.5。

执行满分成标配，约束决定胜负

公式 core_overall = 0.55×执行 + 0.45×约束，让执行分 100 的模型获得至少 55 分底分。剩余 45 分几乎全看约束表现。豆包 Pro 约束 94.3 分，紧随其后 97.44 分；Grok 4 约束 93.5 分，位列第三。Gemini 2.5 Pro 和 Claude Opus 4.7 也保持 91.8 分以上约束水准。

反观后段，文心一言 4.5 执行分仅 50 分，直接拖累总分至 58.69。Qwen3 Max 虽然执行满分，但约束 73.5 分且诚信评级 fail，排在第 10。

无剧烈波动，行业进入稳定期

与昨日对比，所有模型分数变化均在 0.3 分以内，无异常信号。这说明当前主流模型在 10 题快测场景下已形成相对固定的能力边界。代码执行能力经过过去半年迭代，已成为大多数模型的“及格线”能力，而材料约束仍存在明显分层。

值得注意的是，GPT-5.5 与 GPT-o3 约束分分别为 82.3 和 65，差距达到 17.3 分，显示 OpenAI 内部不同版本在 grounding 方向仍有明显迭代空间。

材料约束成为下一阶段核心战场

从今日数据看，约束分每提升 1 分，对总榜影响约 0.45 分。Claude Sonnet 4.6 凭借 95.5 的高约束，领先第 6 名 Gemini 3.1 Pro 近 5.4 分。未来一周若无新模型发布，排名大概率维持当前格局。

代码执行已成标配，材料约束才是真正的分水岭。

数据来源：赢政指数 (YZ Index) | Run #158 | 查看原始数据

Smoke 评测：10 模型代码执行全满分，材料约束差距拉大排名

执行满分成标配，约束决定胜负

无剧烈波动，行业进入稳定期

材料约束成为下一阶段核心战场

相关测评

Winzheng Index GLM-4.6 材料约束 93.30 分却诚信 fail，代码执行 25.00 分拖累主榜

Winzheng Index GLM-4.6 诚信评级从 pass 跌至 fail，代码执行却暴涨 47 分

Winzheng Index Claude Opus 4.7 Smoke评测主榜暴跌26.1分，代码执行与材料约束双双失守

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分 主榜下滑6.5分

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分主榜下滑6.5分