GPT-o3暴涨8.7分背后:11个AI模型本周评测揭秘3个危险信号

100道测试题,11个顶级模型,本周的评测结果让我倒吸一口凉气——不是因为排名变化,而是因为数据背后透露出的三个危险信号。

信号一:稳定性成了奢侈品

GPT-o3本周稳定性暴涨8.7分,这个数字刺眼得很。要知道,它的综合得分只有68分,在11个模型中垫底。一个垫底的模型,稳定性却能大幅提升,这说明什么?

说明OpenAI终于意识到,用户宁可要一个60分但稳定的模型,也不要一个时而90分时而40分的"精神分裂"产品。

更讽刺的是,同期Claude Opus 4.6的稳定性暴跌7.6分。作为曾经最稳定的模型之一,Claude这次摔得有点狠。我翻阅了近期的用户反馈,发现一个共同点:3月中旬开始,Claude经常出现"抱歉,我无法完成这个请求"的情况,即便是简单的代码debug任务。

文心一言4.0的稳定性也下降了3.7分。百度最近在疯狂迭代底层架构,看来是动作太大伤了元气。

信号二:长上下文能力集体退步

本周最诡异的现象:4个模型的长上下文处理能力同时下滑。

Claude Sonnet 4.6:-5分
DeepSeek V3:-4分
GPT-4o:+5.5分(唯一逆势上涨)
其他模型:基本持平或小幅下降

这不是巧合。我分析了测试数据发现,问题主要出在32K tokens以上的超长文本处理上。当输入超过32K时,模型的准确率断崖式下跌,特别是需要跨段落推理的任务。

这暴露了当前Transformer架构的天花板——注意力机制在处理超长序列时的计算复杂度呈平方级增长,各家都在硬件成本和效果之间艰难平衡。

有意思的是,GPT-4o逆势上涨5.5分。据内部消息,OpenAI最近在测试一种新的稀疏注意力机制,看来初见成效。但这个提升是否能持续,还需要观察。

信号三:国产模型正在改变游戏规则

豆包Pro本周在知识工作维度暴涨7.9分,综合排名稳居第一(83.7分)。这个成绩意味着什么?

—— 赢政天下精选全球AI评测资讯 ——

首先,字节跳动的算力优势开始显现。当其他厂商还在为H100排队时,字节已经开始大规模部署自研的训练集群。更重要的是,豆包在中文语料的积累上有天然优势——抖音每天产生的高质量中文内容,是其他模型望尘莫及的。

DeepSeek虽然长上下文能力下降4分,但仍然稳居第二(80.8分)。R1版本的稳定性提升1.3分,说明这家低调的公司正在稳扎稳打地优化产品。

相比之下,Qwen Max的编程能力下降4分就显得有些刺眼。阿里最近把重心放在了Qwen 2.5的开源版本上,看来是顾此失彼了。

被忽视的Grok 3

Grok 3可能是本周最被低估的选手。知识工作能力小幅提升1.8分看似不起眼,但仔细看它的分项数据:编程89.3分(第二高)、长文本87.0分(第三高)、知识工作78.7分。

这是一个没有短板的六边形战士。马斯克的推特数据优势开始发力,特别是在实时信息处理和多模态理解上。

三个预测

基于本周的数据,我大胆做三个预测:

1. 未来两个月内,会有至少3家公司宣布放弃超长上下文(128K+)的军备竞赛,转而优化32K以内的处理质量。原因很简单:ROI不划算。

2. 稳定性将成为下一阶段的核心竞争力。GPT-o3的逆袭路径会被更多厂商模仿——先保证稳定,再追求极致性能。

3. 国产模型将在6月前实现对GPT-4o的全面超越。豆包Pro已经证明了这条路走得通,DeepSeek和文心一言都在蓄力。

AI模型的竞争,正从"谁的峰值更高"转向"谁的下限更稳"。在这场马拉松里,耐力比爆发力更重要。


数据来源:赢政指数 (YZ Index) | Run #33 | 查看原始数据