Claude Opus 4.7 100分称王，9模型代码执行暴跌50分

2026年06月16日 24 阅读 - 阅读来源: Winzheng Index

Claude Opus 4.7 代码执行 Smoke评测主榜排名异常波动

2026-06-16 Smoke轻量评测结果显示，Claude Opus 4.7主榜得分100分，代码执行100分、材料约束100分，诚信评级pass，成为当日唯一满分模型。

分数结构揭示模型分化

主榜公式core_overall = 0.55 × 代码执行 + 0.45 × 材料约束。当日11个模型中，9个模型材料约束保持100分，但代码执行仅50分或0分，导致主榜集中在45-72.5分区间。文心一言4.5执行66.7分、约束100分，主榜81.69分，位列第二，其执行分比其余50分模型高16.7分。

Claude Sonnet 4.6、豆包Pro、GPT-o3、Grok 4、Qwen3 Max五模型执行均为50分、约束100分，主榜同为72.5分。DeepSeek V4 Pro与GPT-5.5执行50分、约束94.5分，主榜70.03分。Gemini 2.5 Pro和Gemini 3.1 Pro执行0分、约束100分，主榜45分。

昨日对比下的异常波动

与昨日数据对比，文心一言4.5主榜上升31.1分，执行增加16.7分、约束增加48.7分，诚信评级从pass转为warn。Claude Opus 4.7主榜上升18.3分，约束增加40.7分，诚信评级从warn转为pass。

9个模型出现代码执行-50分或主榜明显下滑：GPT-5.5主榜下降12.3分，Grok 4下降10.1分，豆包Pro下降9.9分，Qwen3 Max下降9.6分，Gemini 2.5 Pro下降8.4分。Claude Sonnet 4.6、GPT-o3执行均暴跌50分。

执行与约束的失衡信号

材料约束维度保持高位，而代码执行出现集体下滑，说明当日测试题目可能对代码生成或调试环节要求更高。Gemini系列执行分直接归零，与昨日相比主榜下滑8分左右，显示其在代码执行环节的输出与评分标准偏差增大。

文心一言4.5在执行维度相对突出，可能是其在当日10题中对代码类题目响应更稳定。Claude Opus 4.7两维度均满分，表明其在执行准确性和材料引用约束上同时满足评分要求。

Claude Opus 4.7以双100分建立的领先优势，短期内难以被执行分普遍停留在50分以下的模型追赶。

数据来源：赢政指数 (YZ Index) | Run #182 | 查看原始数据

Claude Opus 4.7 100分称王，9模型代码执行暴跌50分

分数结构揭示模型分化

昨日对比下的异常波动

执行与约束的失衡信号

相关测评

Winzheng Index 豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50

Winzheng Index Claude Sonnet 4.6代码执行从100暴跌至50，主榜降6.9分

Winzheng Index Claude Opus 4.7材料约束暴跌16.5分 主榜从96.83降至90.78

Winzheng Index 9模型并列主榜77.5，代码执行满分材料约束却只剩50

Winzheng Index 豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

Winzheng Index Claude Opus 4.7材料约束暴跌16.5分主榜从96.83降至90.78