Claude Sonnet 4.6材料约束暴跌22分,代码执行却冲到100

Claude Sonnet 4.6在今日Smoke评测中,材料约束维度直接从96.50掉到74.50,单日跌幅22分。

数据拆解:主榜微降掩盖局部崩盘

主榜得分仅从90.56滑落到88.53,降幅2分看似温和。但拆开两个核心维度就能看到剧烈分化:代码执行从85.70跳涨至满分100,材料约束却断崖下跌。工程判断小涨8.3分,任务表达保持30分不变。诚信评级仍为pass。

Smoke评测每天仅10题,2题/维度,样本量极小。单日22分波动本身并不罕见。问题在于跌幅是否超出正常抽签区间。

波动还是退化:两种解释的概率判断

第一种可能是题目抽签偏差。材料约束题目若连续出现需要严格引用原始文档、拒绝过度生成的场景,模型若在其中一题出现幻觉或过度润色,就会直接拉低该维度得分。过去多期数据显示,Claude在材料约束上通常稳定在90+,此次74.5更接近历史低点。

第二种可能是真实能力变化。Anthropic近期对Claude 4系列进行了多轮安全与对齐微调,重点加强“拒绝不合理请求”和“避免过度自信”。这类调整有时会让模型在需要精确引用和严格边界判断的任务上变得保守或回避,导致材料约束得分下降。

结合近两周行业动态看,第二种解释的权重更高。Claude 4.6版本上线后,用户反馈其在长上下文引用任务中偶尔出现“过度谨慎”的现象,与本次材料约束崩盘方向一致。

是否需要重点关注

目前仍属单日信号,不足以判定模型已系统性退化。但若未来3个交易日材料约束持续低于85分,则需启动连续跟踪。代码执行冲到满分说明模型底层推理能力并未受损,问题集中在“材料使用纪律”这一特定约束上。

对依赖Claude进行研究报告、法律文书或技术文档生成的团队来说,这个信号值得记录。

一次22分的材料约束跳水,可能只是抽签噪音;若连续出现,则可能是对齐代价的真实显现。

数据来源:赢政指数 (YZ Index) | Run #132 | 查看原始数据