赢政指数周报：知识工作能力集体下滑，Claude逆势稳定

2026年03月20日 397 阅读 - 阅读来源: winzheng.com

赢政指数周报 AI评测 2026-W12

本周（2026-W12）赢政指数评测显示，AI模型市场出现了罕见的知识工作能力集体下滑现象。8个主流模型中，有6个在知识工作维度出现不同程度的性能下降，其中GPT-o3暴跌12.1分，创下近期最大单项跌幅。

核心发现：知识工作能力普遍退化

数据显示，本周知识工作能力下滑呈现梯度分布：GPT-o3（-12.1）> Qwen Max（-9.8）> DeepSeek V3（-7.1）> GPT-4o（-6.1）> Claude Opus 4.6（-1.7）。这种大范围的性能退化可能源于近期各厂商的模型更新策略调整，或是为了优化推理成本而牺牲了部分知识检索能力。

值得注意的是，Claude Sonnet 4.6成为本周唯一正增长模型，稳定性提升3.8分。在整体下行的环境中，Anthropic的稳定性优化策略显然收到了成效。

排名格局：DeepSeek双雄领跑，但优势缩小

尽管DeepSeek V3和R1依然占据前两名，但其领先优势正在被蚕食。DeepSeek V3的知识工作能力下降7.1分后仅剩75.5分，与第三名Claude Sonnet 4.6的差距从上周的5分缩小到2.3分。特别是DeepSeek R1的稳定性下降7分，这对于一个以推理见长的模型来说是个危险信号。

GPT-o3的表现令人失望，综合得分仅65.7分，已经跌出第一梯队。其知识工作能力从82.4分跌至70.3分，甚至低于排名第6的Qwen Max（71.8分）。

开发者选型建议

1. 编程任务首选：Gemini 2.5 Pro（90.7分）和Claude Sonnet 4.6（88.5分）在编程维度表现最佳，且相对稳定。

2. 知识密集型应用：建议使用Claude Opus 4.6（91.0分）或Claude Sonnet 4.6（89.8分），它们在知识工作维度保持领先，且本周退化最小。

3. 综合性价比：DeepSeek V3仍是不错的选择，但建议密切关注其后续更新，避免性能进一步下滑影响生产环境。

4. 避坑提醒：暂时不建议在生产环境使用GPT-o3和Qwen Max，它们的大幅性能下降可能导致用户体验问题。

本周的评测结果提醒我们：AI模型的性能并非单调递增，定期评测和动态选型是保证应用质量的必要手段。

数据来源：赢政指数 (YZ Index) | Run #20 | 查看原始数据

赢政指数周报：知识工作能力集体下滑，Claude逆势稳定

核心发现：知识工作能力普遍退化

排名格局：DeepSeek双雄领跑，但优势缩小

开发者选型建议

相关测评

Winzheng Index WDCD守约测试剧震：5模型暴跌最高12.5分，Qwen3 Max逆袭