Claude Opus 4.7材料约束单日跌15分，Smoke测试波动还是真实退化

2026年05月27日 501 阅读 - 阅读来源: Winzheng Index

Claude Opus 4.7 材料约束 Smoke评测单日波动 Anthropic

Claude Opus 4.7今日Smoke评测仅用10道题目就让材料约束维度暴跌15分，从74.50直接落到59.50，主榜整体下滑6.8分至81.78。代码执行仍维持100分满分，工程判断66.70、任务表达30.00两项零波动，诚信评级维持warn。

Smoke评测每天仅2题/维度，样本量极小，单日15分级波动本身并不罕见。关键在于材料约束这轮失分是否集中在特定约束类型。历史数据显示，该模型在需要严格遵循多重材料边界、拒绝隐性越界请求的题目上更容易失分。若今日两道题目恰好命中这类高难度约束题，15分跌幅可完全由抽签解释。

但若失分分布均匀，且错误模式与昨日一致，则需警惕模型在对齐训练后的实际能力漂移。目前仅一天数据，尚不足以判定为系统性退化。

Anthropic在过去两周刚完成一次针对Claude 4系列的对齐微调，重点强化了“最小必要信息”原则。这类调整往往会让模型在材料约束题上更保守，偶尔导致过度拒绝或部分回答被系统判定为不完整。Opus 4.7版本号显示其可能已搭载最新微调权重，今日表现与该调整时间线高度吻合。

同时，竞争对手Grok与Gemini近期在同类约束任务上得分反而小幅上升，进一步凸显Claude此次下滑的相对性。

单日数据不足以触发警报，但连续两日材料约束低于65分时，应启动3天滚动观察窗口。若第三天仍维持低位，且错误集中在同一约束子类，则可初步判定为微调后的能力偏移，而非随机波动。

目前最合理的判断是：保持常规跟踪，无需立即发出模型退化预警。

一次15分的材料约束跳水，在10题抽签下更可能是运气作祟，但若连续出现，就值得怀疑Anthropic那次“最小必要”微调是否把约束边界调得过于敏感。