11模型换代战:第一稳住,Grok垫底

2026-W20 评测显示:Claude Sonnet 4.6 以 83.54 守住第一,豆包 Pro 仅差 0.91 分;Grok 4 仅 49.20,断层垫底。

本周真正的冲击不是谁“暴涨”,而是换代后强者更强、弱者被直接甩开。2026-W20,赢政指数纳入 11 个模型,主榜仍只看两个可审计维度:代码执行与材料约束,公式为主榜=0.55×代码执行+0.45×材料约束。这意味着,能不能写对代码、能不能按材料办事,才是硬通货。

第一名没换,但冠军并不安全

Claude Sonnet 4.6 以83.54继续排第一,代码执行 86.60,材料约束 79.80。它的优势不是某一项爆表,而是两项都稳在高位:代码能打,读材料也不飘。

但第二名豆包 Pro 已经追到82.63,只差 0.91 分。更关键的是,豆包 Pro 的代码执行达到88.30,反而高于 Claude Sonnet 4.6。这说明在纯代码任务上,豆包 Pro 已经不是“国产替代”的叙事,而是实打实进入第一梯队。

本周第一集团的冲突点很清楚:Claude Sonnet 4.6 赢在材料约束,豆包 Pro 赢在代码执行。

差距来自材料约束:Claude Sonnet 4.6 为 79.80,豆包 Pro 为 75.70,相差 4.10 分。主榜权重里材料约束占 45%,这 4 分足以把豆包 Pro 挡在冠军门外。

换代名单很热闹,但别把“加入”看成“进步”

本周变化列表里,文心一言 4.5 显示主榜 ↑72,DeepSeek V4 Pro ↑65.2,Qwen3 Max ↑64.9,Gemini 3.1 Pro ↑63.6,Claude Opus 4.7 ↑62.5,GPT-5.5 ↑59.6,Grok 4 ↑41.5。相反,DeepSeek V3、DeepSeek R1、文心一言 4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o 都显示下降。

这里必须说清楚:这些大幅变化主要来自首次加入或退出评测,不是同一模型本周突然暴涨或崩盘。把“退出评测”理解成性能下滑,是误读;把“首次加入”理解成周内提升,也是误读。

真正值得看的,是新阵容在当前排名里的位置。Claude Opus 4.7 以81.12排第三,Gemini 3.1 Pro 以79.24排第四,Gemini 2.5 Pro 以78.45排第五。文心一言 4.5 为78.17,DeepSeek V4 Pro 为77.73,Qwen3 Max 为77.21,三者挤在 1 分以内,形成第二集团。

GPT-o3 的材料约束,是本周最硬的真实变化

在可比变化里,最值得盯的是 GPT-o3:材料约束+20.9。它当前主榜 75.69,代码执行 77.80,材料约束 73.10,排第九。排名不算高,但材料约束的大幅修复很重要,因为这类能力直接关系到模型能否按给定证据回答,而不是凭感觉补全。

如果 GPT-o3 后续能把代码执行同步抬高,它有机会从第三集团向第二集团靠近。现在的问题是,它的工程判断(侧榜,AI 辅助评估)为 51.30,侧榜表现不差,但主榜仍被代码与材料两项硬指标锁住。

Grok 4 的 49.20,不是小失误

本周最刺眼的数据是 Grok 4:主榜49.20,代码执行 53.70,材料约束 43.70,排名第 11。它与第 10 名 GPT-5.5 的 73.20 相差整整24.00 分,这不是“略弱”,而是断层。

更麻烦的是,Grok 4 两个主榜维度都低:代码执行没有站住,材料约束更是拖后腿。对于一个要进入严肃生产环境的模型来说,材料约束 43.70 意味着它在依据给定材料完成任务时风险很高。

侧榜信号:Sonnet 与豆包在补短板

本周 Claude Sonnet 4.6 的工程判断(侧榜,AI 辅助评估)+10.2,豆包 Pro 的工程判断(侧榜,AI 辅助评估)+10.1。这说明头部模型不只在刷主榜,也在改善复杂任务里的取舍能力。但要强调,工程判断是侧榜,不进入主榜计算,不能拿来替代代码执行和材料约束。

Gemini 2.5 Pro 的代码执行 -5.4 则是一个警讯。它当前主榜仍有 78.45,但代码执行降到 79.80。如果后续材料约束不能继续兜底,它在第二集团的位置会被文心一言 4.5、DeepSeek V4 Pro、Qwen3 Max 持续挤压。

本周结论:竞争焦点从“谁会说”转向“谁少犯错”

这一周的榜单透露出三个信号:第一,Claude Sonnet 4.6 仍是综合最强,但豆包 Pro 已经把冠军差距压到 1 分以内;第二,GPT-o3 的材料约束修复值得持续观察;第三,Grok 4 当前不具备与主流第一、第二集团竞争的基础。

另外,稳定性不进入主榜,它衡量的是模型多次回答同类题目时的一致性,基于分数标准差计算,不是正确率。把稳定性分数当成答题正确率,是对评测含义的误读。

未来一周最值得看的不是谁喊得最大声,而是谁能在代码执行和材料约束上同时少犯错;模型战争已经进入“失误率定胜负”的阶段。


数据来源:赢政指数 (YZ Index) | Run #112 | 查看原始数据