赢政指数周报:知识工作能力集体下滑,Claude逆势稳定

本周(2026-W12)赢政指数评测显示,AI模型市场出现了罕见的知识工作能力集体下滑现象。8个主流模型中,有6个在知识工作维度出现不同程度的性能下降,其中GPT-o3暴跌12.1分,创下近期最大单项跌幅。

核心发现:知识工作能力普遍退化

数据显示,本周知识工作能力下滑呈现梯度分布:GPT-o3(-12.1)> Qwen Max(-9.8)> DeepSeek V3(-7.1)> GPT-4o(-6.1)> Claude Opus 4.6(-1.7)。这种大范围的性能退化可能源于近期各厂商的模型更新策略调整,或是为了优化推理成本而牺牲了部分知识检索能力。

值得注意的是,Claude Sonnet 4.6成为本周唯一正增长模型,稳定性提升3.8分。在整体下行的环境中,Anthropic的稳定性优化策略显然收到了成效。

排名格局:DeepSeek双雄领跑,但优势缩小

尽管DeepSeek V3和R1依然占据前两名,但其领先优势正在被蚕食。DeepSeek V3的知识工作能力下降7.1分后仅剩75.5分,与第三名Claude Sonnet 4.6的差距从上周的5分缩小到2.3分。特别是DeepSeek R1的稳定性下降7分,这对于一个以推理见长的模型来说是个危险信号。

GPT-o3的表现令人失望,综合得分仅65.7分,已经跌出第一梯队。其知识工作能力从82.4分跌至70.3分,甚至低于排名第6的Qwen Max(71.8分)。

—— 赢政天下精选全球AI评测资讯 ——

开发者选型建议

1. 编程任务首选:Gemini 2.5 Pro(90.7分)和Claude Sonnet 4.6(88.5分)在编程维度表现最佳,且相对稳定。

2. 知识密集型应用:建议使用Claude Opus 4.6(91.0分)或Claude Sonnet 4.6(89.8分),它们在知识工作维度保持领先,且本周退化最小。

3. 综合性价比:DeepSeek V3仍是不错的选择,但建议密切关注其后续更新,避免性能进一步下滑影响生产环境。

4. 避坑提醒:暂时不建议在生产环境使用GPT-o3和Qwen Max,它们的大幅性能下降可能导致用户体验问题。

本周的评测结果提醒我们:AI模型的性能并非单调递增,定期评测和动态选型是保证应用质量的必要手段。


数据来源:赢政指数 (YZ Index) | Run #20 | 查看原始数据