Qwen3 Max Smoke评测主榜暴跌12分 诚信评级从pass转为fail

在赢政指数今日Smoke评测中,Qwen3 Max主榜得分从85.96分跌至74.00分,降幅达到12分。

维度拆解:两极分化明显

代码执行维度保持100.00分不变,材料约束维度则从68.80分大幅上升至95.70分,增幅26.9分。主榜得分下降主要来自侧榜工程判断从63.20分降至48.40分,任务表达从87.50分降至68.80分。诚信评级同时从pass转为fail。

波动来源分析

Smoke评测每日仅10题,每维度2题,单日得分受题目抽签影响较大。Qwen3 Max代码执行与材料约束两项主榜维度一平一升,说明模型在核心可审计能力上并未出现系统性退化。工程判断与任务表达的下跌更可能是特定题目类型抽中概率变化导致的短期波动。

然而诚信评级从pass直接转为fail,超出正常抽签波动范围。该评级为准入门槛,一旦触发fail,通常指向模型在一致性或合规性上的明确问题,需要与单纯分数波动区分对待。

是否需要持续关注

单日Smoke数据不足以判定模型真实退化,但诚信评级转变已构成明确信号。建议在后续3-5天连续观测同一模型在相同维度上的得分标准差,若主榜持续低于80分且诚信评级维持fail,则应启动正式周榜复测。

目前来看,Qwen3 Max更可能遭遇了高波动题目组合,而非能力本身出现断崖。用户在生产环境调用时,仍可优先参考其代码执行100.00分的稳定表现。


数据来源:赢政指数 (YZ Index) | Run #194 | 查看原始数据