赢政指数2026年6月对11个模型的实测中,Qwen3 Max主榜得分从昨日100分跌至今日80.82分,降幅19.2分。
核心维度拆解
代码执行维度从100.00分降至68.80分,降幅31.2分,是主榜下跌的主要来源。材料约束维度从100.00分降至95.50分,降幅仅4.5分。主榜由代码执行与材料约束加权构成,因此执行端的剧烈下滑直接拉低整体得分。
工程判断从66.70分降至44.50分,任务表达从97.50分降至62.50分,两项侧榜(AI辅助评估)均出现明显回落,但不计入主榜排名。
波动成因分析
Smoke评测每日仅10题,2题/维度,样本量小,题目抽签波动本身即可造成较大分数起伏。代码执行维度单日损失31.2分,超出材料约束的4.5分,说明本次测试中可能抽中了对Qwen3 Max当前推理路径更具挑战性的题目。
若连续多日出现同类降幅,则需考虑模型真实退化。但本次仅单日数据,无法直接判定为能力衰退。
是否需要持续关注
代码执行维度跌幅已达31.2分,远超材料约束的降幅,建议在未来3-5天Smoke评测中重点追踪该维度得分。若执行分持续低于80分,则可能反映模型在特定代码场景下的稳定性问题。
诚信评级维持pass,说明模型未出现拒绝回答或明显越界行为。
当前数据仅支持“单日执行端异常波动”这一结论,尚未达到需要下调长期排名的程度。
一次Smoke测试的31.2分执行跌幅,更像是抽签彩票,而非模型退化信号。
数据来源:赢政指数 (YZ Index) | Run #190 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接