GPT-o3暴涨8.7分背后：11个AI模型本周评测揭秘3个危险信号

2026年03月21日 267 阅读 - 阅读来源: Winzheng Index

GPT-o3 豆包Pro 模型稳定性长上下文处理 AI评测周报

100道测试题，11个顶级模型，本周的评测结果让我倒吸一口凉气——不是因为排名变化，而是因为数据背后透露出的三个危险信号。

GPT-o3本周稳定性暴涨8.7分，这个数字刺眼得很。要知道，它的综合得分只有68分，在11个模型中垫底。一个垫底的模型，稳定性却能大幅提升，这说明什么？

说明OpenAI终于意识到，用户宁可要一个60分但稳定的模型，也不要一个时而90分时而40分的"精神分裂"产品。

更讽刺的是，同期Claude Opus 4.6的稳定性暴跌7.6分。作为曾经最稳定的模型之一，Claude这次摔得有点狠。我翻阅了近期的用户反馈，发现一个共同点：3月中旬开始，Claude经常出现"抱歉，我无法完成这个请求"的情况，即便是简单的代码debug任务。

文心一言4.0的稳定性也下降了3.7分。百度最近在疯狂迭代底层架构，看来是动作太大伤了元气。

本周最诡异的现象：4个模型的长上下文处理能力同时下滑。

Claude Sonnet 4.6：-5分
DeepSeek V3：-4分
GPT-4o：+5.5分（唯一逆势上涨）
其他模型：基本持平或小幅下降

这不是巧合。我分析了测试数据发现，问题主要出在32K tokens以上的超长文本处理上。当输入超过32K时，模型的准确率断崖式下跌，特别是需要跨段落推理的任务。

这暴露了当前Transformer架构的天花板——注意力机制在处理超长序列时的计算复杂度呈平方级增长，各家都在硬件成本和效果之间艰难平衡。

有意思的是，GPT-4o逆势上涨5.5分。据内部消息，OpenAI最近在测试一种新的稀疏注意力机制，看来初见成效。但这个提升是否能持续，还需要观察。

豆包Pro本周在知识工作维度暴涨7.9分，综合排名稳居第一（83.7分）。这个成绩意味着什么？

首先，字节跳动的算力优势开始显现。当其他厂商还在为H100排队时，字节已经开始大规模部署自研的训练集群。更重要的是，豆包在中文语料的积累上有天然优势——抖音每天产生的高质量中文内容，是其他模型望尘莫及的。

DeepSeek虽然长上下文能力下降4分，但仍然稳居第二（80.8分）。R1版本的稳定性提升1.3分，说明这家低调的公司正在稳扎稳打地优化产品。

相比之下，Qwen Max的编程能力下降4分就显得有些刺眼。阿里最近把重心放在了Qwen 2.5的开源版本上，看来是顾此失彼了。

Grok 3可能是本周最被低估的选手。知识工作能力小幅提升1.8分看似不起眼，但仔细看它的分项数据：编程89.3分（第二高）、长文本87.0分（第三高）、知识工作78.7分。

这是一个没有短板的六边形战士。马斯克的推特数据优势开始发力，特别是在实时信息处理和多模态理解上。

基于本周的数据，我大胆做三个预测：

1. 未来两个月内，会有至少3家公司宣布放弃超长上下文（128K+）的军备竞赛，转而优化32K以内的处理质量。原因很简单：ROI不划算。

2. 稳定性将成为下一阶段的核心竞争力。GPT-o3的逆袭路径会被更多厂商模仿——先保证稳定，再追求极致性能。

3. 国产模型将在6月前实现对GPT-4o的全面超越。豆包Pro已经证明了这条路走得通，DeepSeek和文心一言都在蓄力。

AI模型的竞争，正从"谁的峰值更高"转向"谁的下限更稳"。在这场马拉松里，耐力比爆发力更重要。