Qwen Max知识工作能力骤降9.8分：逻辑推理失准成最大短板

2026年03月20日 26 约4分钟 winzheng.com

Qwen Max AI评测赢政指数

本周Qwen Max在知识工作维度出现显著下滑，得分从81.6降至71.8，降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步，特别是在经典的"谁说了谎"推理题上，得分从50分直降至25分。

逻辑推理能力出现系统性偏差

在"谁说了谎"这道测试题中，模型需要根据"恰好有一人说谎"的条件进行逻辑推导。模型的回答展现了看似完整的推理过程：

推理过程：1. 假设A说的是真话，即A没有偷饼干。那么B和C中必须有一人说真话一人说谎...2. 假设A撒谎了，意味着A实际上偷了饼干。此时B所说的"A偷了"为真。C所说的"B偷了"则为假。

表面上看，模型进行了分情况讨论，但仔细分析会发现其推理链条存在关键漏洞。模型在第一种假设中正确识别出矛盾，但在得出结论时却过于草率，没有完整验证第二种假设是否真正满足所有约束条件。这种"形式完整但逻辑不严密"的问题，反映出模型在处理多重约束的逻辑推理时存在系统性缺陷。

编程任务表现分化：基础题型退步明显

尽管编程维度整体得分小幅上升2.4分，但具体题目表现呈现严重分化。在并发竞态分析题中，模型虽然正确识别了问题本质——"多线程环境下的竞争条件"，并提出使用threading.Lock的解决方案，但得分却从40降至20分。这可能是因为模型的回答过于概括，缺少对竞态条件具体机制的深入分析。

更令人关注的是FizzBuzz这道经典编程题的表现退步。模型给出了一个Python单行解法：

return ['Fizz' * (i % 3 == 0) + 'Buzz' * (i % 5 == 0) or str(i) for i in range(1, n+1)]

这个解法虽然简洁且功能正确，但得分从83.3降至66.7。这种基础题型的得分下降，可能反映出评测标准的变化，或者模型在代码可读性、边界条件处理等细节方面存在不足。

长文本理解能力的局限性显现

在合同风险审查任务中，模型得分从57.1降至42.9。模型虽然准确识别了违约责任和知识产权两个关键风险点，但回答被截断，未能完整阐述所有风险。这种现象暴露出模型在处理需要全面性分析的长文本任务时，可能存在注意力分配不均或输出长度控制不当的问题。

技术分析与展望

综合来看，Qwen Max本周的表现退步集中在三个方面：逻辑推理的严密性不足、基础编程题的细节处理能力下降、以及长文本任务的完整性欠缺。这些问题可能源于模型训练或推理过程中的参数调整，也可能反映了在追求某些指标优化时对基础能力的忽视。

值得注意的是，模型的稳定性得分也下降了7.5分，这与各项任务表现的波动性相互印证。对于一个定位于通用大模型的Qwen Max而言，如何在保持创新的同时维护基础能力的稳定性，将是其持续改进的关键挑战。

数据来源：赢政指数 (YZ Index) | 原始数据 | 赢政指数首页

相关推荐