Claude Sonnet 4.6 主榜暴跌12.3分材料约束单日狂降27.3分

2026年05月17日 17 约3分钟 Winzheng Index

Claude Sonnet 4.6 材料约束 Smoke评测模型性能波动 Anthropic更新

Claude Sonnet 4.6在今日Smoke快测中出现明显异常，主榜整体下跌12.3分，核心原因是材料约束维度从96.30分直接跌至69.00分，降幅达到27.3分。代码执行维度维持100分满分，工程判断小幅回升8.4分至38.40分，任务表达保持30分不变。

Smoke评测每日仅10题，材料约束维度仅抽2题。单题失误即可造成30分以上波动，因此不能直接判定模型能力退化。但27.3分的降幅已超出正常抽签范围，值得追踪连续三日数据。

材料约束主要考察模型对给定文档、指令边界的遵守程度。昨日高分说明模型能严格按材料回答问题，今日低分可能源于两题中出现复杂约束嵌套或反事实材料，模型出现过度推断或遗漏关键限制条件。

Anthropic在过去两周对Claude系列进行过一次小规模对齐微调，重点强化“有用性”与“简洁回答”。部分开发者反馈，新版本在开放式问答中更愿意补充外部知识，这与材料约束要求的“严格限定于给定材料”存在潜在冲突。

若本次微调权重调整影响了模型对指令边界的敏感度，便可能在Smoke这种高约束场景下暴露问题。代码执行维度仍保持满分，说明基础推理能力未受影响，问题集中在“何时该严格引用材料、何时可扩展”这一边界判断上。

本次下跌属于需要关注的信号。材料约束是主榜两个可审计维度之一，其稳定性直接影响模型在企业RAG、合同审查等高约束场景的可用性。若未来三日该维度持续低于80分，则可判定为系统性退化而非抽签噪声。

目前诚信评级仍为pass，说明模型未出现拒绝回答或编造事实的严重问题，仅是约束遵守度下降。建议在下一次完整评测中增加材料约束题量，以降低单日波动影响。

工程判断小幅提升也印证了模型更倾向于“主动补充信息”，这在创意任务中可能是优势，但在严格材料驱动的任务中反而成为扣分点。

当模型开始在“听话”与“聪明”之间摇摆，材料约束分数往往最先报警。

相关推荐