Claude Opus 4.7 100分称王,9模型代码执行暴跌50分

2026-06-16 Smoke轻量评测结果显示,Claude Opus 4.7主榜得分100分,代码执行100分、材料约束100分,诚信评级pass,成为当日唯一满分模型。

分数结构揭示模型分化

主榜公式core_overall = 0.55 × 代码执行 + 0.45 × 材料约束。当日11个模型中,9个模型材料约束保持100分,但代码执行仅50分或0分,导致主榜集中在45-72.5分区间。文心一言4.5执行66.7分、约束100分,主榜81.69分,位列第二,其执行分比其余50分模型高16.7分。

Claude Sonnet 4.6、豆包Pro、GPT-o3、Grok 4、Qwen3 Max五模型执行均为50分、约束100分,主榜同为72.5分。DeepSeek V4 Pro与GPT-5.5执行50分、约束94.5分,主榜70.03分。Gemini 2.5 Pro和Gemini 3.1 Pro执行0分、约束100分,主榜45分。

昨日对比下的异常波动

与昨日数据对比,文心一言4.5主榜上升31.1分,执行增加16.7分、约束增加48.7分,诚信评级从pass转为warn。Claude Opus 4.7主榜上升18.3分,约束增加40.7分,诚信评级从warn转为pass。

9个模型出现代码执行-50分或主榜明显下滑:GPT-5.5主榜下降12.3分,Grok 4下降10.1分,豆包Pro下降9.9分,Qwen3 Max下降9.6分,Gemini 2.5 Pro下降8.4分。Claude Sonnet 4.6、GPT-o3执行均暴跌50分。

执行与约束的失衡信号

材料约束维度保持高位,而代码执行出现集体下滑,说明当日测试题目可能对代码生成或调试环节要求更高。Gemini系列执行分直接归零,与昨日相比主榜下滑8分左右,显示其在代码执行环节的输出与评分标准偏差增大。

文心一言4.5在执行维度相对突出,可能是其在当日10题中对代码类题目响应更稳定。Claude Opus 4.7两维度均满分,表明其在执行准确性和材料引用约束上同时满足评分要求。

Claude Opus 4.7以双100分建立的领先优势,短期内难以被执行分普遍停留在50分以下的模型追赶。

数据来源:赢政指数 (YZ Index) | Run #182 | 查看原始数据