Qwen Max知识工作能力骤降9.8分:逻辑推理失准成最大短板
本周Qwen Max在知识工作维度出现显著下滑,得分从81.6降至71.8,降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步,特别是在经典的"谁说了谎"推理题上,得分从50分直降至25分。逻辑推理能力出现系统性偏差 在"谁说了谎"这道测试题中,模型需要根据"恰好有一人...
本周Qwen Max在知识工作维度出现显著下滑,得分从81.6降至71.8,降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步,特别是在经典的"谁说了谎"推理题上,得分从50分直降至25分。逻辑推理能力出现系统性偏差 在"谁说了谎"这道测试题中,模型需要根据"恰好有一人...