11模型换代战：第一稳住，Grok垫底

May 11, 2026 30 approx.6min Winzheng Index

Claude Sonnet 4.6 Grok 4 主榜排名模型评测代码执行

本周真正的冲击不是谁“暴涨”，而是换代后强者更强、弱者被直接甩开。2026-W20，赢政指数纳入 11 个模型，主榜仍只看两个可审计维度：代码执行与材料约束，公式为主榜=0.55×代码执行+0.45×材料约束。这意味着，能不能写对代码、能不能按材料办事，才是硬通货。

第一名没换，但冠军并不安全

Claude Sonnet 4.6 以83.54继续排第一，代码执行 86.60，材料约束 79.80。它的优势不是某一项爆表，而是两项都稳在高位：代码能打，读材料也不飘。

但第二名豆包 Pro 已经追到82.63，只差 0.91 分。更关键的是，豆包 Pro 的代码执行达到88.30，反而高于 Claude Sonnet 4.6。这说明在纯代码任务上，豆包 Pro 已经不是“国产替代”的叙事，而是实打实进入第一梯队。

本周第一集团的冲突点很清楚：Claude Sonnet 4.6 赢在材料约束，豆包 Pro 赢在代码执行。

差距来自材料约束：Claude Sonnet 4.6 为 79.80，豆包 Pro 为 75.70，相差 4.10 分。主榜权重里材料约束占 45%，这 4 分足以把豆包 Pro 挡在冠军门外。

换代名单很热闹，但别把“加入”看成“进步”

本周变化列表里，文心一言 4.5 显示主榜 ↑72，DeepSeek V4 Pro ↑65.2，Qwen3 Max ↑64.9，Gemini 3.1 Pro ↑63.6，Claude Opus 4.7 ↑62.5，GPT-5.5 ↑59.6，Grok 4 ↑41.5。相反，DeepSeek V3、DeepSeek R1、文心一言 4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o 都显示下降。

这里必须说清楚：这些大幅变化主要来自首次加入或退出评测，不是同一模型本周突然暴涨或崩盘。把“退出评测”理解成性能下滑，是误读；把“首次加入”理解成周内提升，也是误读。

真正值得看的，是新阵容在当前排名里的位置。Claude Opus 4.7 以81.12排第三，Gemini 3.1 Pro 以79.24排第四，Gemini 2.5 Pro 以78.45排第五。文心一言 4.5 为78.17，DeepSeek V4 Pro 为77.73，Qwen3 Max 为77.21，三者挤在 1 分以内，形成第二集团。

GPT-o3 的材料约束，是本周最硬的真实变化

在可比变化里，最值得盯的是 GPT-o3：材料约束+20.9。它当前主榜 75.69，代码执行 77.80，材料约束 73.10，排第九。排名不算高，但材料约束的大幅修复很重要，因为这类能力直接关系到模型能否按给定证据回答，而不是凭感觉补全。

如果 GPT-o3 后续能把代码执行同步抬高，它有机会从第三集团向第二集团靠近。现在的问题是，它的工程判断（侧榜，AI 辅助评估）为 51.30，侧榜表现不差，但主榜仍被代码与材料两项硬指标锁住。

Grok 4 的 49.20，不是小失误

本周最刺眼的数据是 Grok 4：主榜49.20，代码执行 53.70，材料约束 43.70，排名第 11。它与第 10 名 GPT-5.5 的 73.20 相差整整24.00 分，这不是“略弱”，而是断层。

更麻烦的是，Grok 4 两个主榜维度都低：代码执行没有站住，材料约束更是拖后腿。对于一个要进入严肃生产环境的模型来说，材料约束 43.70 意味着它在依据给定材料完成任务时风险很高。

侧榜信号：Sonnet 与豆包在补短板

本周 Claude Sonnet 4.6 的工程判断（侧榜，AI 辅助评估）+10.2，豆包 Pro 的工程判断（侧榜，AI 辅助评估）+10.1。这说明头部模型不只在刷主榜，也在改善复杂任务里的取舍能力。但要强调，工程判断是侧榜，不进入主榜计算，不能拿来替代代码执行和材料约束。

Gemini 2.5 Pro 的代码执行 -5.4 则是一个警讯。它当前主榜仍有 78.45，但代码执行降到 79.80。如果后续材料约束不能继续兜底，它在第二集团的位置会被文心一言 4.5、DeepSeek V4 Pro、Qwen3 Max 持续挤压。

本周结论：竞争焦点从“谁会说”转向“谁少犯错”

这一周的榜单透露出三个信号：第一，Claude Sonnet 4.6 仍是综合最强，但豆包 Pro 已经把冠军差距压到 1 分以内；第二，GPT-o3 的材料约束修复值得持续观察；第三，Grok 4 当前不具备与主流第一、第二集团竞争的基础。

另外，稳定性不进入主榜，它衡量的是模型多次回答同类题目时的一致性，基于分数标准差计算，不是正确率。把稳定性分数当成答题正确率，是对评测含义的误读。

未来一周最值得看的不是谁喊得最大声，而是谁能在代码执行和材料约束上同时少犯错；模型战争已经进入“失误率定胜负”的阶段。

数据来源：赢政指数 (YZ Index) | Run #112 | 查看原始数据