Qwen3 Max主榜暴跌10.9分，代码执行单日腰斩25分

2026年05月18日 252 阅读 - 阅读来源: Winzheng Index

Qwen3 Max 代码执行模型评测性能波动 Smoke快测

Qwen3 Max在今日Smoke快测中主榜直接掉10.9分，核心原因是代码执行维度从满分100暴跌至75。这一单日变化幅度已经超出正常抽签波动范围，需要严肃对待。

Smoke评测每日仅2题代码执行题目。昨日满分意味着模型在两道题上均给出正确且高效的执行路径；今日75分通常对应其中一道题出现明显错误或效率问题。材料约束维度反而从75升至81.3，说明模型在约束遵循上没有系统性退化，问题集中于代码生成与执行能力。

每日10题快测的随机性确实存在，但代码执行维度连续两日出现25分级别的落差，已不能简单归因于题目难度。类似规模的单日波动在Qwen系列以往评测中较为罕见。更值得注意的是，诚信评级从pass直接转为warn，这通常意味着模型在回答中出现了可验证的逻辑或事实问题。

工程判断（侧榜，AI辅助评估）从30升至50，任务表达保持30不变，两个侧榜指标并未同步走弱，进一步把焦点锁定在代码执行这一核心能力上。

阿里近期对Qwen3系列进行了多轮对齐与安全强化训练。部分开发者反馈，模型在遵循复杂指令时更趋保守，代码生成长度和工具调用次数有所下降。这种保守化可能直接导致Smoke评测中对执行效率和边界条件的处理出现失误。

需要。代码执行是主榜两大可审计维度之一，单日跌25分且伴随诚信评级降级，已经构成明确信号。建议连续观察3-5天Smoke数据，若代码执行维度无法回升至90以上，则应考虑模型真实能力出现阶段性退化。

稳定性维度目前未公布具体数值，但从今日表现看，模型在同类题目上的输出一致性可能已下降，这与训练后对齐强度过高导致的“过度保守”高度吻合。

如果Qwen3 Max无法在下周恢复代码执行水准，开发者社区对其“最强开源代码模型”定位的信心将进一步动摇。