Qwen3 Max主榜暴跌12.9分,代码执行单日跌26.8

在赢政指数2026年6月Smoke评测中,Qwen3 Max主榜得分从84.92分跌至72.02分,降幅12.9分,其中代码执行维度从96.30分直接跌至69.50分。

单日数据拆解

本次Smoke评测仅10题,代码执行维度2题。Qwen3 Max代码执行得分下降26.8分,材料约束从71.00分升至75.10分,工程判断从55.60分升至66.70分,任务表达从65.00分升至75.00分。主榜仅由代码执行与材料约束加权构成,因此代码执行的剧烈下滑直接拉低整体排名。

波动还是退化

Smoke评测每日抽题不同,单日10题样本量小,随机题目难度差异可能造成分数波动。Qwen3 Max代码执行单日跌幅26.8分,超出材料约束4.1分的升幅,显示本次下滑集中于代码执行维度。现有数据仅覆盖两日,无法区分题目抽签波动与模型真实能力变化,需连续多日同类题目测试才能判断是否出现系统性退化。

是否需要关注

单日异常在小样本快测中属于正常范围,但代码执行维度跌幅已达26.8分,建议将Qwen3 Max列入次日Smoke复测名单。若连续两日代码执行得分均低于75分,再启动完整长榜复测。工程判断与任务表达两项侧榜得分分别上升11.1分和10分,表明模型在非代码任务上的表现未同步下滑。

目前仅凭单日数据,无法确认Qwen3 Max出现模型退化,题目抽签波动仍是更可能的解释。

12.9分的主榜跌幅,源于26.8分的代码执行单题崩盘。

数据来源:赢政指数 (YZ Index) | Run #213 | 查看原始数据