Qwen3 Max主榜暴跌10.9分,代码执行单日腰斩25分

Qwen3 Max在今日Smoke快测中主榜直接掉10.9分,核心原因是代码执行维度从满分100暴跌至75。这一单日变化幅度已经超出正常抽签波动范围,需要严肃对待。

数据拆解:代码执行为何腰斩

Smoke评测每日仅2题代码执行题目。昨日满分意味着模型在两道题上均给出正确且高效的执行路径;今日75分通常对应其中一道题出现明显错误或效率问题。材料约束维度反而从75升至81.3,说明模型在约束遵循上没有系统性退化,问题集中于代码生成与执行能力。

题目波动还是真实退化

每日10题快测的随机性确实存在,但代码执行维度连续两日出现25分级别的落差,已不能简单归因于题目难度。类似规模的单日波动在Qwen系列以往评测中较为罕见。更值得注意的是,诚信评级从pass直接转为warn,这通常意味着模型在回答中出现了可验证的逻辑或事实问题。

工程判断(侧榜,AI辅助评估)从30升至50,任务表达保持30不变,两个侧榜指标并未同步走弱,进一步把焦点锁定在代码执行这一核心能力上。

近期行业动态与可能诱因

阿里近期对Qwen3系列进行了多轮对齐与安全强化训练。部分开发者反馈,模型在遵循复杂指令时更趋保守,代码生成长度和工具调用次数有所下降。这种保守化可能直接导致Smoke评测中对执行效率和边界条件的处理出现失误。

  • 训练后模型更倾向于输出“安全但不够激进”的代码方案
  • Smoke评测中部分题目需要激进的优化或边缘case处理,容易暴露短板
  • 诚信评级warn提示可能伴随幻觉或逻辑跳跃,进一步放大扣分

是否需要重点关注

需要。代码执行是主榜两大可审计维度之一,单日跌25分且伴随诚信评级降级,已经构成明确信号。建议连续观察3-5天Smoke数据,若代码执行维度无法回升至90以上,则应考虑模型真实能力出现阶段性退化。

稳定性维度目前未公布具体数值,但从今日表现看,模型在同类题目上的输出一致性可能已下降,这与训练后对齐强度过高导致的“过度保守”高度吻合。

如果Qwen3 Max无法在下周恢复代码执行水准,开发者社区对其“最强开源代码模型”定位的信心将进一步动摇。


数据来源:赢政指数 (YZ Index) | Run #121 | 查看原始数据