11 模型新老更迭:Grok 4 登顶,DeepSeek 系列集体退场

本周赢政指数 v6 主榜最直接的信号是:旧模型批量退场,新模型一次性涌入。7 个首秀模型中,Qwen3 Max 以 80.9 分、Grok 4 以 79.0 分、文心一言 4.5 以 79.0 分直接进入前段位,把 DeepSeek V3、R1、文心 4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o 七个旧模型一次性挤出评测池。

新模型首秀即高分,旧模型退场速度超预期

核心公式 core_overall = 0.55×代码执行 + 0.45×材料约束,本周新模型在代码执行上普遍给出了 87-94 的高分段。豆包 Pro 代码执行 94.60、Grok 4 93.90、Qwen3 Max 89.70,均高于同期退出的 GPT-4o(59.8 分)和 Claude Opus 4.6(61.6 分)。材料约束维度同样如此,Claude Opus 4.7 达到 87.50,远超旧版 Claude。

这不是渐进式迭代,而是版本代差的直接体现。旧模型在 2025 年底的材料约束普遍卡在 70-75 区间,新模型一上来就把天花板拉到 85+,导致旧榜单在单周内失效。

Grok 4 登顶的真实支撑

当前排名第一的 Grok 4,主榜 89.90,代码执行 93.90,材料约束 85.00,工程判断 82.10。它在代码执行上仅次于豆包 Pro,却在材料约束上领先豆包 Pro 3.4 分,这 0.45 权重带来的 1.53 分优势,直接把豆包 Pro 挤到第三。

Claude Opus 4.7 以 89.04 分紧随其后,材料约束 87.50 是目前最高,工程判断(侧榜,AI 辅助评估)93.10 也最强。但代码执行 90.30 落后 Grok 4 3.6 分,最终以 0.86 分之差居第二。

侧榜信号:任务表达出现明显分化

GPT-o3 任务表达单周暴涨 62.5 分,Claude Sonnet 4.6 上涨 57.8 分,Gemini 2.5 Pro 上涨 54.6 分。这些增幅远超主榜变化,说明模型在指令遵循和多轮对话一致性上仍有快速迭代空间。

值得注意的是,稳定性维度(基于分数标准差计算)在本周并未直接体现在主榜,但多次回答同类题目的波动情况仍需持续跟踪,31.7 分的模型在实际部署中可能出现输出漂移。

谁会成为下一周的变量

7 个新模型中,GPT-5.5 和文心一言 4.5 目前排在第 10、11 位,代码执行分别为 81.90 和 78.00,还有 5-8 分提升空间。若下周它们继续保持迭代节奏,主榜前五将被进一步挤压。

旧模型集体退场后,评测池的“代际差”被一次性抹平,未来排名将更多取决于单周增量而非历史积累。

新模型首秀即顶尖,旧模型一周清零——2026 年的 AI 排行榜,已经进入“周更即生死”的阶段。

数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据