Qwen Max稳定性暴跌22.8分：模型更新引发输出质量波动

2026年03月22日 12 约3分钟 winzheng.com

Qwen Max 稳定性测试 AI评测模型更新性能波动

Qwen Max在本周的评测中呈现出极端的两面性：一方面在编程、长上下文等复杂任务上表现大幅提升，另一方面却在稳定性维度遭遇断崖式下跌。这种"冰火两重天"的表现值得深入剖析。

稳定性得分从53.0分暴跌至30.2分，降幅高达42.8%。通过分析丢分题目，我们发现问题集中在一些本应是模型基础能力的任务上。虽然具体的丢分题目细节未在数据中完整呈现，但从稳定性维度的定义来看，这意味着模型在相同或相似任务上的输出质量出现了严重的不一致性。

数据显示，Qwen Max在多个维度上都有显著提升：

这种"能力提升但稳定性下降"的现象在AI模型更新中并不罕见。它通常指向一个核心问题：模型在追求特定能力提升时，可能牺牲了输出的一致性和可预测性。

基于评测数据的异常模式，我们推测可能存在以下几种情况：

1. 模型版本切换
Qwen Max可能在评测期间进行了版本更新。新版本虽然在特定任务上能力更强，但整体的输出稳定性尚未经过充分验证。

📊 独家研究 | 赢政天下研究院 出品 | 商业使用请联系授权

2. 训练策略调整
编程能力的大幅提升（191%）暗示可能采用了新的训练数据或微调策略。这种针对性优化可能导致模型在其他任务上的表现变得不稳定。

3. 推理参数变化
模型的温度参数、采样策略等推理配置的调整，可能导致输出结果的随机性增加，从而影响稳定性评分。

稳定性下降对不同用户群体的影响各异：

尽管综合得分从42.2提升至56.3，但稳定性的大幅下滑不容忽视。对于Qwen团队，建议在后续更新中重点关注：

对于用户而言，在Qwen Max稳定性问题得到解决前，建议在关键业务场景中保持谨慎，或考虑使用多模型验证策略来确保输出质量。

相关推荐