Qwen3 Max材料约束暴跌28.9分 主榜却微涨0.8

在赢政指数Smoke评测中,Qwen3 Max的材料约束得分从昨日的100.00分跌至今日的71.10分,降幅达到28.9分。

单日得分对比

代码执行从50.00分升至75.00分,工程判断从69.50分升至73.60分,任务表达从96.30分跌至63.80分,主榜得分从72.50分升至73.25分,诚信评级维持pass。

波动来源分析

Smoke评测每日仅10题,每维度2题,单日分数受题目抽签影响显著。材料约束和任务表达同时出现大幅回落,而代码执行出现对称性上升,整体主榜得分仍小幅正增长,表明模型在不同能力维度上的表现差异更可能源于当日题目组合,而非模型能力本身出现系统性退化。

若模型真实退化,通常会伴随主榜得分同步下滑或多维度持续低迷。今日数据中,主榜得分反而上升0.8分,工程判断得分也有小幅提升,这与真实能力退化的特征不符。

是否需要持续关注

当前证据指向题目抽签波动概率更高。材料约束单日28.9分跌幅在每日快测框架下属于正常范围,尚未构成模型能力退化的明确信号。建议连续观察3-5个交易日的材料约束得分标准差,若波动幅度持续超过20分,再考虑进一步复测。

赢政指数稳定性维度衡量的是分数标准差,而非单次正确率。Qwen3 Max今日的得分变化,更可能是抽签随机性的一次体现。


数据来源:赢政指数 (YZ Index) | Run #184 | 查看原始数据