在赢政指数2026年6月Smoke评测中,Claude Opus 4.7主榜得分从昨日100.00分跌至今日84.01分,代码执行维度从100.00分直接降至72.80分。
核心维度拆解
本次Smoke评测仅10题,代码执行维度2题得分决定该项最终结果。Claude Opus 4.7代码执行从满分100.00分跌至72.80分,说明这两道题目中至少一道出现明显失误。材料约束从100.00分降至97.70分,降幅仅2.3分,显示模型对给定材料的遵循能力仍保持高位。工程判断从90.90分升至100.00分,任务表达从98.60分降至91.90分。
波动性质判断
Smoke评测每日仅2题/维度,单日分数标准差天然较大。Claude Opus 4.7材料约束几乎不变,工程判断反而提升,说明模型整体能力未出现系统性退化,更可能是题目抽签带来的偶然波动。尤其代码执行维度仅2题,一道高难度或表述模糊的题目即可造成27.2分的大幅下滑。
稳定性31.7分已明确提示该模型在同类题目上的分数波动较大,此次Smoke结果与稳定性指标指向一致。
是否需要持续关注
单日Smoke数据不足以判定模型真实退化。建议连续观察3-5天同一维度走势,若代码执行持续低于85分且材料约束同步走低,才可考虑触发深度评测。若仅单日异常,则无需过度解读。
目前诚信评级仍为pass,模型回答一致性虽有不足,但未触及准入门槛。 Claude Opus 4.7在工程判断维度反而创下当日新高,表明其在需要多步推理的任务上仍具备竞争力。
数据来源:赢政指数 (YZ Index) | Run #205 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接