AIレビュー

実機テスト、データで語る。厳密な方法論でAI大規模モデル、スマートハードウェア、最先端技術を評価し、最も客観的な参考を提供します。

🏠 自社レビュー LMSYS Chatbot Arena MLCommons Ars Technica

Qwen Max稳定性暴跌22.8分：模型更新引发输出质量波动

Qwen Max本周评测稳定性维度大幅下跌22.8分，从53.0降至30.2。尽管编程和长上下文能力显著提升，但在多个基础任务上出现严重质量问题，疑似模型版本更新导致的不稳定现象。

本周Qwen Max在知识工作维度出现显著下滑，得分从81.6降至71.8，降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步，特别是在经典的"谁说了谎"推理题上，得分从50分直降至25分。逻辑推理能力出现系统性偏差在"谁说了谎"这道测试题中，模型需要根据"恰好有一人...