Claude Opus 4.7 Smoke评测主榜暴跌27.5分,代码执行从100直降50

在赢政指数2026年6月对11个模型的实测中,Claude Opus 4.7 Smoke评测主榜从昨日100.00分跌至今日72.50分,代码执行维度从100.00分直接降至50.00分。

单日数据拆解

代码执行维度出现-50分变化,材料约束维度保持100.00分不变,工程判断维度从83.40分升至100.00分,任务表达维度维持100.00分。主榜得分因此下降27.5分,诚信评级仍为pass。

波动来源判断

Smoke评测每日仅10题,2题/维度,单日抽签差异可导致分数大幅摆动。代码执行维度本次两题可能均未通过,而昨日两题均通过,直接造成50分落差。材料约束维度两日均满分,说明模型在该维度输出仍符合约束要求。

工程判断维度反而提升16.6分,任务表达维度零变化,显示模型整体能力并未出现系统性退化。单一维度50分落差更符合题目难度随机分布,而非模型参数或训练发生改变。

是否需要持续关注

若后续三日Smoke评测中代码执行维度持续低于70分,则需进入正式长榜复测。当前单日数据仅显示抽签波动,尚不足以判定模型真实能力下降。材料约束维度保持满分,进一步印证模型基础能力仍在正常区间。

每日快测标准差较大时,单日得分不宜直接等同于模型长期表现。Claude Opus 4.7本次变化主要集中在代码执行一维,其余维度稳定或上升,整体仍处于可接受波动范围。

单日代码执行腰斩未必是退化信号,连续三日低迷才是真正警报。

数据来源:赢政指数 (YZ Index) | Run #195 | 查看原始数据