Claude Opus 4.7材料约束单日跌15分,Smoke测试波动还是真实退化

Claude Opus 4.7今日Smoke评测仅用10道题目就让材料约束维度暴跌15分,从74.50直接落到59.50,主榜整体下滑6.8分至81.78。代码执行仍维持100分满分,工程判断66.70、任务表达30.00两项零波动,诚信评级维持warn。

抽签波动与真实退化的界限

Smoke评测每天仅2题/维度,样本量极小,单日15分级波动本身并不罕见。关键在于材料约束这轮失分是否集中在特定约束类型。历史数据显示,该模型在需要严格遵循多重材料边界、拒绝隐性越界请求的题目上更容易失分。若今日两道题目恰好命中这类高难度约束题,15分跌幅可完全由抽签解释。

但若失分分布均匀,且错误模式与昨日一致,则需警惕模型在对齐训练后的实际能力漂移。目前仅一天数据,尚不足以判定为系统性退化。

近期行业动态的交叉验证

Anthropic在过去两周刚完成一次针对Claude 4系列的对齐微调,重点强化了“最小必要信息”原则。这类调整往往会让模型在材料约束题上更保守,偶尔导致过度拒绝或部分回答被系统判定为不完整。Opus 4.7版本号显示其可能已搭载最新微调权重,今日表现与该调整时间线高度吻合。

同时,竞争对手Grok与Gemini近期在同类约束任务上得分反而小幅上升,进一步凸显Claude此次下滑的相对性。

是否需要重点关注

单日数据不足以触发警报,但连续两日材料约束低于65分时,应启动3天滚动观察窗口。若第三天仍维持低位,且错误集中在同一约束子类,则可初步判定为微调后的能力偏移,而非随机波动。

目前最合理的判断是:保持常规跟踪,无需立即发出模型退化预警。

一次15分的材料约束跳水,在10题抽签下更可能是运气作祟,但若连续出现,就值得怀疑Anthropic那次“最小必要”微调是否把约束边界调得过于敏感。

数据来源:赢政指数 (YZ Index) | Run #134 | 查看原始数据