11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

2026年06月08日 486 阅读 - 阅读来源: Winzheng Index

Grok 4 代码执行新模型首秀主榜排名工程判断

本周赢政指数 v6 主榜最直接的信号是：旧模型批量退场，新模型一次性涌入。7 个首秀模型中，Qwen3 Max 以 80.9 分、Grok 4 以 79.0 分、文心一言 4.5 以 79.0 分直接进入前段位，把 DeepSeek V3、R1、文心 4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o 七个旧模型一次性挤出评测池。

新模型首秀即高分，旧模型退场速度超预期

核心公式 core_overall = 0.55×代码执行 + 0.45×材料约束，本周新模型在代码执行上普遍给出了 87-94 的高分段。豆包 Pro 代码执行 94.60、Grok 4 93.90、Qwen3 Max 89.70，均高于同期退出的 GPT-4o（59.8 分）和 Claude Opus 4.6（61.6 分）。材料约束维度同样如此，Claude Opus 4.7 达到 87.50，远超旧版 Claude。

这不是渐进式迭代，而是版本代差的直接体现。旧模型在 2025 年底的材料约束普遍卡在 70-75 区间，新模型一上来就把天花板拉到 85+，导致旧榜单在单周内失效。

Grok 4 登顶的真实支撑

当前排名第一的 Grok 4，主榜 89.90，代码执行 93.90，材料约束 85.00，工程判断 82.10。它在代码执行上仅次于豆包 Pro，却在材料约束上领先豆包 Pro 3.4 分，这 0.45 权重带来的 1.53 分优势，直接把豆包 Pro 挤到第三。

Claude Opus 4.7 以 89.04 分紧随其后，材料约束 87.50 是目前最高，工程判断（侧榜，AI 辅助评估）93.10 也最强。但代码执行 90.30 落后 Grok 4 3.6 分，最终以 0.86 分之差居第二。

侧榜信号：任务表达出现明显分化

GPT-o3 任务表达单周暴涨 62.5 分，Claude Sonnet 4.6 上涨 57.8 分，Gemini 2.5 Pro 上涨 54.6 分。这些增幅远超主榜变化，说明模型在指令遵循和多轮对话一致性上仍有快速迭代空间。

值得注意的是，稳定性维度（基于分数标准差计算）在本周并未直接体现在主榜，但多次回答同类题目的波动情况仍需持续跟踪，31.7 分的模型在实际部署中可能出现输出漂移。

谁会成为下一周的变量

7 个新模型中，GPT-5.5 和文心一言 4.5 目前排在第 10、11 位，代码执行分别为 81.90 和 78.00，还有 5-8 分提升空间。若下周它们继续保持迭代节奏，主榜前五将被进一步挤压。

旧模型集体退场后，评测池的“代际差”被一次性抹平，未来排名将更多取决于单周增量而非历史积累。

新模型首秀即顶尖，旧模型一周清零——2026 年的 AI 排行榜，已经进入“周更即生死”的阶段。

数据来源：赢政指数 (YZ Index) | Run #154 | 查看原始数据

11 模型新老更迭：Grok 4 登顶，DeepSeek 系列集体退场

新模型首秀即高分，旧模型退场速度超预期

Grok 4 登顶的真实支撑

侧榜信号：任务表达出现明显分化

谁会成为下一周的变量

相关测评

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分 主榜下滑6.5分

Winzheng Index Claude Opus 4.7主榜暴跌19.9分 代码执行单日跌25分

Winzheng Index Grok 4 Smoke评测主榜暴跌15.3分 代码执行单日跌31.4

Winzheng Index Claude Sonnet 4.6 Smoke主榜暴跌15.3分，代码执行单日掉25分

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分主榜下滑6.5分

Winzheng Index Claude Opus 4.7主榜暴跌19.9分代码执行单日跌25分

Winzheng Index Grok 4 Smoke评测主榜暴跌15.3分代码执行单日跌31.4