Qwen3 Max在今日Smoke快测中主榜直接掉10.9分,核心原因是代码执行维度从满分100暴跌至75。这一单日变化幅度已经超出正常抽签波动范围,需要严肃对待。
数据拆解:代码执行为何腰斩
Smoke评测每日仅2题代码执行题目。昨日满分意味着模型在两道题上均给出正确且高效的执行路径;今日75分通常对应其中一道题出现明显错误或效率问题。材料约束维度反而从75升至81.3,说明模型在约束遵循上没有系统性退化,问题集中于代码生成与执行能力。
题目波动还是真实退化
每日10题快测的随机性确实存在,但代码执行维度连续两日出现25分级别的落差,已不能简单归因于题目难度。类似规模的单日波动在Qwen系列以往评测中较为罕见。更值得注意的是,诚信评级从pass直接转为warn,这通常意味着模型在回答中出现了可验证的逻辑或事实问题。
工程判断(侧榜,AI辅助评估)从30升至50,任务表达保持30不变,两个侧榜指标并未同步走弱,进一步把焦点锁定在代码执行这一核心能力上。
近期行业动态与可能诱因
阿里近期对Qwen3系列进行了多轮对齐与安全强化训练。部分开发者反馈,模型在遵循复杂指令时更趋保守,代码生成长度和工具调用次数有所下降。这种保守化可能直接导致Smoke评测中对执行效率和边界条件的处理出现失误。
- 训练后模型更倾向于输出“安全但不够激进”的代码方案
- Smoke评测中部分题目需要激进的优化或边缘case处理,容易暴露短板
- 诚信评级warn提示可能伴随幻觉或逻辑跳跃,进一步放大扣分
是否需要重点关注
需要。代码执行是主榜两大可审计维度之一,单日跌25分且伴随诚信评级降级,已经构成明确信号。建议连续观察3-5天Smoke数据,若代码执行维度无法回升至90以上,则应考虑模型真实能力出现阶段性退化。
稳定性维度目前未公布具体数值,但从今日表现看,模型在同类题目上的输出一致性可能已下降,这与训练后对齐强度过高导致的“过度保守”高度吻合。
如果Qwen3 Max无法在下周恢复代码执行水准,开发者社区对其“最强开源代码模型”定位的信心将进一步动摇。
数据来源:赢政指数 (YZ Index) | Run #121 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接