Claude Opus 4.7今日在Smoke评测中材料约束直接丢了17.6分,从98.3掉到80.7,主榜从65.19滑到63.82。同一模型代码执行却从38.1涨到50.0,任务表达也从30.0拉到50.0。这种冰火两重天的表现,让人不得不问:这是抽签运气,还是模型本身出了问题?
题目波动还是真实退化?
Smoke评测每天只跑10道题,2题一个维度,样本量极小,单日标准差本就容易拉大。材料约束维度主要考察模型对给定材料的严格遵循程度,题目如果抽到需要严格引用原文或拒绝外部知识的场景,模型一旦多加一句解释或擅自补充,就可能被扣重分。今日的80.7分与昨日98.3分的巨大落差,更像是抽到高难度约束题的结果,而非模型突然“忘记”如何遵守指令。
但也不能完全归因于运气。代码执行维度同期上涨11.9分,说明模型在结构化输出和逻辑链条上反而更稳。两种能力同时出现反向波动,更合理的解释是Anthropic最近可能对Opus 4.7进行了小范围的偏好对齐或安全强化,导致模型在“严格守材料”和“主动补全”之间产生了新的权衡。
行业动态佐证
本月Anthropic刚对Claude系列进行过一次安全微调,重点加强了“拒绝不安全或越界请求”的能力。这类调整经常会让模型在材料约束维度变得更加谨慎,遇到边界模糊的指令时更容易选择保守回答,从而降低得分。同时,Anthropic也在持续优化代码相关能力,4.7版本的代码执行基线本就高于前代,今日的50.0分更接近其真实水平。
工程判断和任务表达两个侧榜维度也同步反向运动,进一步印证了这次调整的针对性:模型在“听话”和“聪明”之间被重新校准了。
是否需要重点关注?
单日17.6分的跌幅在快测中属于异常,但还不构成模型退化的确凿证据。建议连续观察3-5天同一维度的中位数变化。如果材料约束持续低于85分,且伴随其他维度同步下滑,才需要判断为真实能力衰退。目前来看,更可能是Anthropic安全迭代的副作用,属于可控范围。
对于依赖材料约束的应用场景,开发者应在提示词中增加更明确的“仅使用给定材料”指令,降低模型自主发挥的空间。
一次快测的暴跌,往往暴露的不是模型崩了,而是训练目标悄然换了方向。
数据来源:赢政指数 (YZ Index) | Run #127 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接