在赢政指数今日Smoke评测中,Claude Opus 4.7主榜从97.12分跌至71.47分,降幅达到25.7分。
核心维度变化
代码执行维度从昨日的100.00分直接腰斩至50.00分,材料约束则从93.60分升至97.70分,工程判断从95.80分升至100.00分,任务表达从97.40分升至98.60分。主榜得分由代码执行与材料约束两项按规则加权得出,此次暴跌完全由代码执行单维度决定。
波动成因分析
Smoke评测每日仅10题,2题/维度,样本量小,抽签波动本属正常范围。但代码执行维度单日损失50分,远超材料约束的4.1分小幅回升,表明题目难度或模型对特定问题类型的响应出现了明显不一致。工程判断与任务表达两项侧榜维度同步小幅上升,显示模型在非代码任务上的发挥仍处于高位。
若此次下跌主要源于题目抽签,则属于一次性噪声;若模型对同类代码问题的处理逻辑已发生系统性偏移,则可能预示真实能力退化。目前仅单日数据,无法区分两者。
是否需要持续关注
代码执行维度直接影响主榜排名,Claude Opus 4.7本次跌幅已使其主榜位置大幅后移。建议在后续3-5天Smoke评测中重点追踪该维度得分,若连续出现低于70分的情况,再判断是否存在真实退化。诚信评级维持pass,说明模型未出现拒绝回答或格式错误等基础问题。
稳定性维度衡量的是模型多次回答同类题目的分数标准差,Claude Opus 4.7本次单日剧烈波动已体现出一致性降低,但这与正确率本身无关。
单日Smoke数据只能提供信号,连续追踪才能确认趋势。
数据来源:赢政指数 (YZ Index) | Run #201 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接