Claude Opus 4.7 Smoke评测主榜暴跌9分，材料约束单日腰斩20分

2026年05月17日 383 阅读 - 阅读来源: Winzheng Index

Claude Opus 4.7 材料约束 Smoke快测性能波动 Anthropic更新

Claude Opus 4.7在今日Smoke评测中主榜直接失血9分，从97.75掉到88.75，核心原因是材料约束维度从95分暴跌至75分。这不是小幅波动，而是单日20分的硬性损失。

Smoke评测每天仅10题，2题/维度，样本量小导致方差天然偏高。代码执行维度今天依然拿满100分，证明模型在纯逻辑与执行链路上没有崩盘。工程判断反而从30分升至38.4分，任务表达保持30分不变。唯一明显下滑的只有材料约束。

材料约束主要考核模型对给定材料的忠实程度与边界控制。掉20分大概率来自今天抽到的2道题涉及长文档引用、事实核对或禁止外推的场景。模型可能在其中一题出现了过度总结或添加未授权信息，直接被扣到低分。

Anthropic在过去两周刚推送了Claude 4系列的上下文优化补丁，官方宣称提升了长文档处理速度。速度提升有时会以牺牲严格边界控制为代价。类似情况在Claude 3 Opus时期也出现过：一次上下文加速更新后， grounding分数连续三天走低，随后通过微调回稳。

与此同时，OpenAI o3-mini和Gemini 2.5 Pro近期在同类快测中材料约束分数持续稳定在88-92区间。Claude Opus 4.7若想守住主榜第一梯队，必须在 grounding 维度重新建立优势。

单日9分跌幅在Smoke历史记录里排前15%，但还没到需要立即拉警报的级别。建议连续观察3天：如果材料约束连续两天低于80分，再结合稳定性维度（当前31.7分，波动已较大）综合判断，才有理由怀疑模型出现系统性退化。

目前最合理的解释仍是题目抽签带来的随机误差。Claude Opus 4.7的代码执行和工程判断依然稳健，整体能力底座并未动摇。

一次Smoke跌9分，可能是运气；连续三次材料约束失守，才是信号。