Claude Sonnet 4.6在今日Smoke快测中出现明显异常,主榜整体下跌12.3分,核心原因是材料约束维度从96.30分直接跌至69.00分,降幅达到27.3分。代码执行维度维持100分满分,工程判断小幅回升8.4分至38.40分,任务表达保持30分不变。
材料约束维度为何剧烈波动
Smoke评测每日仅10题,材料约束维度仅抽2题。单题失误即可造成30分以上波动,因此不能直接判定模型能力退化。但27.3分的降幅已超出正常抽签范围,值得追踪连续三日数据。
材料约束主要考察模型对给定文档、指令边界的遵守程度。昨日高分说明模型能严格按材料回答问题,今日低分可能源于两题中出现复杂约束嵌套或反事实材料,模型出现过度推断或遗漏关键限制条件。
近期行业动态与模型更新关联
Anthropic在过去两周对Claude系列进行过一次小规模对齐微调,重点强化“有用性”与“简洁回答”。部分开发者反馈,新版本在开放式问答中更愿意补充外部知识,这与材料约束要求的“严格限定于给定材料”存在潜在冲突。
若本次微调权重调整影响了模型对指令边界的敏感度,便可能在Smoke这种高约束场景下暴露问题。代码执行维度仍保持满分,说明基础推理能力未受影响,问题集中在“何时该严格引用材料、何时可扩展”这一边界判断上。
是否需要持续关注
本次下跌属于需要关注的信号。材料约束是主榜两个可审计维度之一,其稳定性直接影响模型在企业RAG、合同审查等高约束场景的可用性。若未来三日该维度持续低于80分,则可判定为系统性退化而非抽签噪声。
目前诚信评级仍为pass,说明模型未出现拒绝回答或编造事实的严重问题,仅是约束遵守度下降。建议在下一次完整评测中增加材料约束题量,以降低单日波动影响。
工程判断小幅提升也印证了模型更倾向于“主动补充信息”,这在创意任务中可能是优势,但在严格材料驱动的任务中反而成为扣分点。
当模型开始在“听话”与“聪明”之间摇摆,材料约束分数往往最先报警。
数据来源:赢政指数 (YZ Index) | Run #119 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接