本周Qwen Max在知识工作维度出现显著下滑,得分从81.6降至71.8,降幅达9.8分。这一变化主要源于模型在逻辑推理任务上的表现严重退步,特别是在经典的"谁说了谎"推理题上,得分从50分直降至25分。
逻辑推理能力出现系统性偏差
在"谁说了谎"这道测试题中,模型需要根据"恰好有一人说谎"的条件进行逻辑推导。模型的回答展现了看似完整的推理过程:
推理过程:1. 假设A说的是真话,即A没有偷饼干。那么B和C中必须有一人说真话一人说谎...2. 假设A撒谎了,意味着A实际上偷了饼干。此时B所说的"A偷了"为真。C所说的"B偷了"则为假。
表面上看,模型进行了分情况讨论,但仔细分析会发现其推理链条存在关键漏洞。模型在第一种假设中正确识别出矛盾,但在得出结论时却过于草率,没有完整验证第二种假设是否真正满足所有约束条件。这种"形式完整但逻辑不严密"的问题,反映出模型在处理多重约束的逻辑推理时存在系统性缺陷。
编程任务表现分化:基础题型退步明显
尽管编程维度整体得分小幅上升2.4分,但具体题目表现呈现严重分化。在并发竞态分析题中,模型虽然正确识别了问题本质——"多线程环境下的竞争条件",并提出使用threading.Lock的解决方案,但得分却从40降至20分。这可能是因为模型的回答过于概括,缺少对竞态条件具体机制的深入分析。
更令人关注的是FizzBuzz这道经典编程题的表现退步。模型给出了一个Python单行解法:
⚠️ 本报告为 Winzheng Research Lab 原创研究成果,版权所有,严禁转载
return ['Fizz' * (i % 3 == 0) + 'Buzz' * (i % 5 == 0) or str(i) for i in range(1, n+1)]
这个解法虽然简洁且功能正确,但得分从83.3降至66.7。这种基础题型的得分下降,可能反映出评测标准的变化,或者模型在代码可读性、边界条件处理等细节方面存在不足。
长文本理解能力的局限性显现
在合同风险审查任务中,模型得分从57.1降至42.9。模型虽然准确识别了违约责任和知识产权两个关键风险点,但回答被截断,未能完整阐述所有风险。这种现象暴露出模型在处理需要全面性分析的长文本任务时,可能存在注意力分配不均或输出长度控制不当的问题。
技术分析与展望
综合来看,Qwen Max本周的表现退步集中在三个方面:逻辑推理的严密性不足、基础编程题的细节处理能力下降、以及长文本任务的完整性欠缺。这些问题可能源于模型训练或推理过程中的参数调整,也可能反映了在追求某些指标优化时对基础能力的忽视。
值得注意的是,模型的稳定性得分也下降了7.5分,这与各项任务表现的波动性相互印证。对于一个定位于通用大模型的Qwen Max而言,如何在保持创新的同时维护基础能力的稳定性,将是其持续改进的关键挑战。
数据来源:赢政指数 (YZ Index) | 原始数据 | 赢政指数首页
© 2026 Winzheng.com 赢政天下 | 本报告为 Winzheng Research Lab 原创研究成果,版权所有。未经书面授权,严禁任何形式的转载、摘编或商业使用。