Qwen Max (共1篇)

Qwen Max知识工作能力骤降9.8分：逻辑推理失准成最大短板

本周Qwen Max在知识工作维度出现显著下滑，得分从81.6降至71.8，降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步，特别是在经典的"谁说了谎"推理题上，得分从50分直降至25分。逻辑推理能力出现系统性偏差在"谁说了谎"这道测试题中，模型需要根据"恰好有一人...