Claude Sonnet 4.6 主榜暴跌12.3分 材料约束单日狂降27.3分

Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分,材料约束维度从96.30暴跌至69.00,单日下降27.3分。代码执行保持满分100分,诚信评级维持pass,需区分随机抽题波动与真实能力退化。

Claude Sonnet 4.6在今日Smoke快测中出现明显异常,主榜整体下跌12.3分,核心原因是材料约束维度从96.30分直接跌至69.00分,降幅达到27.3分。代码执行维度维持100分满分,工程判断小幅回升8.4分至38.40分,任务表达保持30分不变。

材料约束维度为何剧烈波动

Smoke评测每日仅10题,材料约束维度仅抽2题。单题失误即可造成30分以上波动,因此不能直接判定模型能力退化。但27.3分的降幅已超出正常抽签范围,值得追踪连续三日数据。

材料约束主要考察模型对给定文档、指令边界的遵守程度。昨日高分说明模型能严格按材料回答问题,今日低分可能源于两题中出现复杂约束嵌套或反事实材料,模型出现过度推断或遗漏关键限制条件。

近期行业动态与模型更新关联

Anthropic在过去两周对Claude系列进行过一次小规模对齐微调,重点强化“有用性”与“简洁回答”。部分开发者反馈,新版本在开放式问答中更愿意补充外部知识,这与材料约束要求的“严格限定于给定材料”存在潜在冲突。

若本次微调权重调整影响了模型对指令边界的敏感度,便可能在Smoke这种高约束场景下暴露问题。代码执行维度仍保持满分,说明基础推理能力未受影响,问题集中在“何时该严格引用材料、何时可扩展”这一边界判断上。

是否需要持续关注

本次下跌属于需要关注的信号。材料约束是主榜两个可审计维度之一,其稳定性直接影响模型在企业RAG、合同审查等高约束场景的可用性。若未来三日该维度持续低于80分,则可判定为系统性退化而非抽签噪声。

目前诚信评级仍为pass,说明模型未出现拒绝回答或编造事实的严重问题,仅是约束遵守度下降。建议在下一次完整评测中增加材料约束题量,以降低单日波动影响。

工程判断小幅提升也印证了模型更倾向于“主动补充信息”,这在创意任务中可能是优势,但在严格材料驱动的任务中反而成为扣分点。

当模型开始在“听话”与“聪明”之间摇摆,材料约束分数往往最先报警。

数据来源:赢政指数 (YZ Index) | Run #119 | 查看原始数据