Claude Sonnet 4.6材料约束暴跌15分,Smoke快测主榜下滑6.8

Claude Sonnet 4.6在今日Smoke评测中出现明显异常,材料约束维度直接从74.50跌至59.50,单日下降15分,主榜整体下滑6.8分至81.78。这一幅度已超出每日10题快测的常规抽签波动范围。

波动与退化如何区分

Smoke评测每日仅2题/维度,样本量小,单题失误即可造成10分以上波动。但材料约束连续两日出现系统性下滑,且伴随诚信评级从pass转为warn,说明模型在引用外部材料时的准确性和边界控制出现了实质问题,而非单纯运气因素。

近期行业动态佐证

过去三周,Anthropic对Claude 4系列进行了至少两次权重更新,重点优化了长上下文和工具调用。部分开发者反馈,Sonnet 4.6在处理带引用的技术问答时,出现“过度自信幻觉”比例上升,与本次材料约束得分下降高度吻合。

是否需要重点关注

需要。材料约束是赢政指数主榜两大核心维度之一,直接影响模型在RAG、企业知识库等场景的可用性。连续出现-15分级别的下滑,且诚信评级亮起黄灯,表明该模型当前版本已进入观察期,建议用户在关键生产任务中暂缓大规模部署,等待下一次完整评测结果。

15分的暴跌不是噪音,而是Claude 4.6材料能力的真实警报。

数据来源:赢政指数 (YZ Index) | Run #134 | 查看原始数据