Qwen Max稳定性暴跌22.8分:模型更新引发输出质量波动
Qwen Max本周评测稳定性维度大幅下跌22.8分,从53.0降至30.2。尽管编程和长上下文能力显著提升,但在多个基础任务上出现严重质量问题,疑似模型版本更新导致的不稳定现象。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
Qwen Max本周评测稳定性维度大幅下跌22.8分,从53.0降至30.2。尽管编程和长上下文能力显著提升,但在多个基础任务上出现严重质量问题,疑似模型版本更新导致的不稳定现象。
DeepSeek V3本周稳定性得分从53.4分骤降至32.0分,跌幅达21.4分。尽管编程和长上下文能力大幅提升,但在多个基础任务上出现严重性能退化,暴露出模型更新中的系统性问题。
DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分,跌幅达22.1分。深入分析发现,模型在数学计算、逻辑推理等任务中出现显著波动,同时编程和长上下文能力却大幅提升,呈现出明显的性能分化现象。
Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分,下跌22.5分。深度分析显示,模型在多个测试场景中出现输出格式混乱、响应不一致等问题,但编程和长上下文能力显著提升。