Claude Opus 4.7在今日Smoke评测中主榜直接失血9分,从97.75掉到88.75,核心原因是材料约束维度从95分暴跌至75分。这不是小幅波动,而是单日20分的硬性损失。
波动还是退化:数据先说话
Smoke评测每天仅10题,2题/维度,样本量小导致方差天然偏高。代码执行维度今天依然拿满100分,证明模型在纯逻辑与执行链路上没有崩盘。工程判断反而从30分升至38.4分,任务表达保持30分不变。唯一明显下滑的只有材料约束。
材料约束主要考核模型对给定材料的忠实程度与边界控制。掉20分大概率来自今天抽到的2道题涉及长文档引用、事实核对或禁止外推的场景。模型可能在其中一题出现了过度总结或添加未授权信息,直接被扣到低分。
近期行业动态下的解读
Anthropic在过去两周刚推送了Claude 4系列的上下文优化补丁,官方宣称提升了长文档处理速度。速度提升有时会以牺牲严格边界控制为代价。类似情况在Claude 3 Opus时期也出现过:一次上下文加速更新后, grounding分数连续三天走低,随后通过微调回稳。
与此同时,OpenAI o3-mini和Gemini 2.5 Pro近期在同类快测中材料约束分数持续稳定在88-92区间。Claude Opus 4.7若想守住主榜第一梯队,必须在 grounding 维度重新建立优势。
是否值得持续关注
单日9分跌幅在Smoke历史记录里排前15%,但还没到需要立即拉警报的级别。建议连续观察3天:如果材料约束连续两天低于80分,再结合稳定性维度(当前31.7分,波动已较大)综合判断,才有理由怀疑模型出现系统性退化。
目前最合理的解释仍是题目抽签带来的随机误差。Claude Opus 4.7的代码执行和工程判断依然稳健,整体能力底座并未动摇。
一次Smoke跌9分,可能是运气;连续三次材料约束失守,才是信号。
数据来源:赢政指数 (YZ Index) | Run #119 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接