在赢政指数2026年6月对11个模型的实测中,Claude Sonnet 4.6今日Smoke评测代码执行得分从昨日的100.00直接跌至50.00,主榜整体从79.44降至72.50。
单日50分落差的直接数据
Smoke评测每日仅10题,2题 per 维度。代码执行维度昨日满分、今日腰斩,材料约束却从54.30升至100.00,工程判断从75.50升至95.90,任务表达从84.50升至100.00。四个维度中三个大幅上升,仅代码执行出现-50分变化,导致主榜净降6.9分。
题目抽签波动还是真实退化
Smoke评测题目每日随机抽取,单日得分标准差本就较大。Claude Sonnet 4.6材料约束与任务表达同时达到满分,说明模型在同一次评测中处理约束和表达类题目时表现稳定,唯独代码执行维度出现极端低分。这更接近题目抽签带来的局部波动,而非模型整体能力退化。
代码执行维度仅2题,单题失误即可造成50分级别的得分跳水。
是否需要持续关注
主榜仅下降6.9分,且诚信评级维持pass,当前数据不足以判定模型出现系统性退化。但代码执行维度从满分直接归零,波动幅度已超出正常抽签范围。若明日同一维度仍维持低位,则需提高监测频率。
综合今日全部得分,Claude Sonnet 4.6在Smoke评测中呈现明显的维度分化:材料约束与任务表达达到峰值,代码执行出现极端低谷。主榜小幅回落主要由代码执行单一维度驱动,而非多维度同步下滑。
该模型需要继续观察后续2-3天同一维度的得分分布,以区分偶然波动与真实能力变化。
数据来源:赢政指数 (YZ Index) | Run #182 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接