在赢政指数2026年6月对11个模型的实测中,Qwen3 Max代码执行维度从昨日100.00分直接跌至今日50.00分,单日降幅达到50分。
主榜微降的真实构成
主榜得分仅从74.00分降至72.50分,降幅1.5分。这是因为主榜仅由代码执行和材料约束两个维度平均计算得出。材料约束从95.70分升至100.00分,抵消了代码执行的大幅下滑。
工程判断从48.40分升至63.20分,任务表达从68.80分升至96.30分,诚信评级从fail转为pass。这些侧榜指标的改善并未计入主榜。
50分波动是抽签还是退化
Smoke评测每日仅10题,每维度2题。代码执行维度当日题目若集中于复杂多步推理或边缘用例,单日得分出现50分级波动属于正常范围。昨日100.00分代表当日题目被全部正确完成,今日50.00分则可能仅完成一半。
材料约束当日反而达到满分,说明模型在约束遵循能力上没有系统性下降。两个核心维度的反向变动,更符合题目抽签带来的随机波动,而非模型整体能力退化。
是否需要持续关注
单日50分级波动在Smoke快测中已多次出现。若后续三日代码执行得分持续低于70分,则需考虑模型真实能力变化。目前仅凭一日数据,无法确认退化。
诚信评级从fail转为pass,表明模型在本次快测中未出现明显幻觉或越界回答,这与代码执行得分暴跌形成对比,进一步支持波动主要源于题目难度而非模型本身。
Smoke快测的50分级单日波动,更多反映抽签方差,而非模型退化。
数据来源:赢政指数 (YZ Index) | Run #195 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接