Claude Opus 4.7主榜暴跌22.6分，代码执行从100直接腰斩

2026年05月19日 25 约2分钟 Winzheng Index

Claude Opus 4.7 代码执行 Smoke评测模型波动 Anthropic

Claude Opus 4.7在今日Smoke评测中主榜从93.48分跌至70.93分，单日下降22.6分。代码执行维度直接从满分100分腰斩至50分，是本次下跌的核心驱动因素。

对比昨日数据，代码执行维度出现-50分的极端波动，而材料约束从85.50分升至96.50分，工程判断和任务表达也分别上涨16.7分和20分。主榜仅由代码执行与材料约束加权构成，因此代码执行的崩盘直接决定了整体结果。

Smoke评测每日仅10题，每维度2题，样本量极小，单题失误即可造成50分级别的剧烈摆动。这与稳定性维度的含义一致——31.7分的稳定性得分本身就提示模型在同类题目上的输出一致性较低。

若连续三天代码执行维度均维持在60分以下，则可初步判断为模型真实能力变化。当前仅一天数据，仍属于抽签波动范畴。建议明日继续追踪同一维度，若分数回升至80分以上，则本次下跌大概率为题目难度突增所致。

值得注意的是，诚信评级从warn转为pass，说明模型在本次回答中减少了幻觉或过度承诺，这与代码执行失分形成对比。可能的情况是模型在代码任务中选择了更保守的输出策略，导致得分下降。

Anthropic近期重点推进Claude 4系列的推理对齐与安全训练，部分开发者反馈其在复杂代码生成场景中更倾向于分步解释而非直接输出完整代码。这种行为变化与Smoke评测中代码执行题目的评分标准可能存在冲突。

若此趋势持续，Claude Opus 4.7在编程辅助类应用中的竞争力将受到直接影响。建议关注下周完整版评测的代码执行样本分布，再做长期结论。

单日22.6分的主榜波动本身不构成紧急警报，但连续追踪三天仍是必要操作。

相关推荐