在赢政指数2026年6月Smoke评测中,Claude Sonnet 4.6主榜得分从97.84分跌至82.52分,单日降幅15.3分。
核心维度变化
代码执行维度从昨日100.00分跌至75.00分,降幅25分;材料约束从95.20分降至91.70分,降幅3.5分。两个侧榜维度则出现明显回升,工程判断从89.60分升至100.00分,任务表达从75.80分升至92.50分。
Smoke评测的抽样特性
Smoke评测每日仅10题,每维度2题,样本量极小。代码执行维度单日25分波动,在该评测框架下属于正常范围。材料约束仅降3.5分,说明模型在约束遵循方面的基础能力未出现系统性退化。
工程判断和任务表达两个侧榜维度同时提升,表明模型在本次抽到的题目上,判断逻辑与表达清晰度反而更好。这进一步支持波动主要来自题目难度差异,而非模型能力整体下滑。
是否需要持续关注
主榜15.3分跌幅主要由代码执行单一维度驱动,且该维度昨日满分、今日75分,极可能源于2道题目中至少1道难度显著高于昨日。诚信评级维持pass,未出现异常信号。
在当前数据下,Claude Sonnet 4.6的这次下跌更接近抽签波动,而非真实退化。建议观察后续3-5天Smoke数据,若代码执行持续低于85分,再考虑启动正式长榜复测。
一次Smoke暴跌,更可能是两道题的运气,而不是模型的退步。
数据来源:赢政指数 (YZ Index) | Run #205 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接