Claude Opus 4.7材料约束暴跌17.6分，代码执行却逆势涨11.9

2026年05月22日 396 阅读 - 阅读来源: Winzheng Index

Claude Opus 4.7 材料约束 Smoke评测 Anthropic更新性能波动

Claude Opus 4.7今日在Smoke评测中材料约束直接丢了17.6分，从98.3掉到80.7，主榜从65.19滑到63.82。同一模型代码执行却从38.1涨到50.0，任务表达也从30.0拉到50.0。这种冰火两重天的表现，让人不得不问：这是抽签运气，还是模型本身出了问题？

题目波动还是真实退化？

Smoke评测每天只跑10道题，2题一个维度，样本量极小，单日标准差本就容易拉大。材料约束维度主要考察模型对给定材料的严格遵循程度，题目如果抽到需要严格引用原文或拒绝外部知识的场景，模型一旦多加一句解释或擅自补充，就可能被扣重分。今日的80.7分与昨日98.3分的巨大落差，更像是抽到高难度约束题的结果，而非模型突然“忘记”如何遵守指令。

但也不能完全归因于运气。代码执行维度同期上涨11.9分，说明模型在结构化输出和逻辑链条上反而更稳。两种能力同时出现反向波动，更合理的解释是Anthropic最近可能对Opus 4.7进行了小范围的偏好对齐或安全强化，导致模型在“严格守材料”和“主动补全”之间产生了新的权衡。

行业动态佐证

本月Anthropic刚对Claude系列进行过一次安全微调，重点加强了“拒绝不安全或越界请求”的能力。这类调整经常会让模型在材料约束维度变得更加谨慎，遇到边界模糊的指令时更容易选择保守回答，从而降低得分。同时，Anthropic也在持续优化代码相关能力，4.7版本的代码执行基线本就高于前代，今日的50.0分更接近其真实水平。

工程判断和任务表达两个侧榜维度也同步反向运动，进一步印证了这次调整的针对性：模型在“听话”和“聪明”之间被重新校准了。

是否需要重点关注？

单日17.6分的跌幅在快测中属于异常，但还不构成模型退化的确凿证据。建议连续观察3-5天同一维度的中位数变化。如果材料约束持续低于85分，且伴随其他维度同步下滑，才需要判断为真实能力衰退。目前来看，更可能是Anthropic安全迭代的副作用，属于可控范围。

对于依赖材料约束的应用场景，开发者应在提示词中增加更明确的“仅使用给定材料”指令，降低模型自主发挥的空间。

一次快测的暴跌，往往暴露的不是模型崩了，而是训练目标悄然换了方向。

数据来源：赢政指数 (YZ Index) | Run #127 | 查看原始数据

Claude Opus 4.7材料约束暴跌17.6分，代码执行却逆势涨11.9

题目波动还是真实退化？

行业动态佐证

是否需要重点关注？

相关测评

Winzheng Index Claude Opus 4.7 Smoke评测主榜暴跌26.1分，代码执行与材料约束双双失守

Winzheng Index Claude Opus 4.7主榜跌14分 代码执行从100降至69

Winzheng Index Gemini 3.1 Pro材料约束暴跌17.8分 主榜下滑6分

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分 主榜下滑6.5分

Winzheng Index Claude Opus 4.7主榜跌14分代码执行从100降至69

Winzheng Index Gemini 3.1 Pro材料约束暴跌17.8分主榜下滑6分

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分主榜下滑6.5分