Claude Opus 4.7主榜暴跌22.6分,代码执行从100直接腰斩

Claude Opus 4.7今日Smoke评测主榜暴跌22.6分,代码执行从100分直接跌至50分,材料约束反升11分,需区分随机波动与真实能力退化。

Claude Opus 4.7在今日Smoke评测中主榜从93.48分跌至70.93分,单日下降22.6分。代码执行维度直接从满分100分腰斩至50分,是本次下跌的核心驱动因素。

数据拆解:单一维度主导下跌

对比昨日数据,代码执行维度出现-50分的极端波动,而材料约束从85.50分升至96.50分,工程判断和任务表达也分别上涨16.7分和20分。主榜仅由代码执行与材料约束加权构成,因此代码执行的崩盘直接决定了整体结果。

Smoke评测每日仅10题,每维度2题,样本量极小,单题失误即可造成50分级别的剧烈摆动。这与稳定性维度的含义一致——31.7分的稳定性得分本身就提示模型在同类题目上的输出一致性较低。

波动还是退化:需要第三天验证

若连续三天代码执行维度均维持在60分以下,则可初步判断为模型真实能力变化。当前仅一天数据,仍属于抽签波动范畴。建议明日继续追踪同一维度,若分数回升至80分以上,则本次下跌大概率为题目难度突增所致。

值得注意的是,诚信评级从warn转为pass,说明模型在本次回答中减少了幻觉或过度承诺,这与代码执行失分形成对比。可能的情况是模型在代码任务中选择了更保守的输出策略,导致得分下降。

行业背景下的短期观察

Anthropic近期重点推进Claude 4系列的推理对齐与安全训练,部分开发者反馈其在复杂代码生成场景中更倾向于分步解释而非直接输出完整代码。这种行为变化与Smoke评测中代码执行题目的评分标准可能存在冲突。

若此趋势持续,Claude Opus 4.7在编程辅助类应用中的竞争力将受到直接影响。建议关注下周完整版评测的代码执行样本分布,再做长期结论。

单日22.6分的主榜波动本身不构成紧急警报,但连续追踪三天仍是必要操作。


数据来源:赢政指数 (YZ Index) | Run #123 | 查看原始数据