YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

2026 第31周 2026 第30周 2026 第29周 2026 第27周 2026 第26周 2026-31 2026-30 2026-29 2026-28 2026-27 2026-26 2026-24 2026-23 2026-22 2026-21 2026-20 2026-19 2026-18 2026-06-15-同日对比

基准: Run #239 · 公式 v7 · 判分 v6.4 · 题库 v7 · 2026-07-20 04:53 SGT 当前: Run #249 · 公式 v7 · 判分 v6.4 · 题库 v7 · 2026-07-27 05:03 SGT

主变化综合实力 core_overall

GLM-4.6 +10.3

53.2 → 63.5

DeepSeek V4 Pro +5.1

74.5 → 79.6

GPT-o3 +3.6

77.3 → 80.9

Gemini 3.1 Pro +3.5

65.9 → 69.4

Claude Sonnet 4.6 +1.4

75.9 → 77.4

豆包 Pro -7.7

80.0 → 72.3

Grok 4 -4.4

82.2 → 77.8

Claude Opus 4.7 -4.0

83.0 → 79.0

GPT-5.5 -3.5

80.5 → 77.1

Qwen3 Max -3.0

74.1 → 71.1

1 个模型表现稳定

Gemini 2.5 Pro (74.0)

侧榜变化判断力 / 表达力

Claude Opus 4.7 +9.6

表达力: 62.8 → 72.4

DeepSeek V4 Pro +9.0

表达力: 86.4 → 95.4

Claude Sonnet 4.6 +7.1

表达力: 77.9 → 85.0

GLM-4.6 +3.6

判断力: 25.0 → 28.6

Grok 4 +3.3

判断力: 73.6 → 76.9

Gemini 2.5 Pro +2.5

表达力: 80.8 → 83.3

Claude Opus 4.7 +2.2

判断力: 81.7 → 83.9

Qwen3 Max +1.7

判断力: 40.6 → 42.3

豆包 Pro +0.7

判断力: 86.0 → 86.7

GPT-o3 -12.5

表达力: 90.8 → 78.3

GLM-4.6 -12.5

表达力: 37.5 → 25.0

Qwen3 Max -8.0

表达力: 55.8 → 47.8

Gemini 2.5 Pro -7.8

判断力: 79.9 → 72.1

豆包 Pro -7.5

表达力: 93.3 → 85.8

Gemini 3.1 Pro -4.1

判断力: 81.9 → 77.8

DeepSeek V4 Pro -3.9

判断力: 88.4 → 84.5

Claude Sonnet 4.6 -2.8

判断力: 86.0 → 83.2

Gemini 3.1 Pro -2.5

表达力: 78.3 → 75.8

GPT-o3 -1.1

判断力: 87.4 → 86.3

运行信号变化稳定性 / 可用性 / 性价比

GLM-4.6 +8.6

性价比: 28.0 → 36.6

GLM-4.6 +5.7

可用性: 55.1 → 60.8

GPT-o3 +4.8

稳定性: 35.1 → 39.9

GLM-4.6 +3.8

稳定性: 32.6 → 36.4

DeepSeek V4 Pro +2.8

稳定性: 41.5 → 44.3

Gemini 2.5 Pro +1.2

可用性: 90.8 → 92.0

DeepSeek V4 Pro +1.1

可用性: 95.9 → 97.0

DeepSeek V4 Pro +1.1

性价比: 43.8 → 44.9

Claude Sonnet 4.6 +0.9

稳定性: 30.6 → 31.5

Claude Opus 4.7 -6.8

稳定性: 39.1 → 32.3

GPT-5.5 -5.6

稳定性: 40.4 → 34.8

豆包 Pro -5.4

稳定性: 39.4 → 34.0

Gemini 2.5 Pro -4.6

稳定性: 43.6 → 39.0

豆包 Pro -2.3

性价比: 94.5 → 92.2

Qwen3 Max -2.3

性价比: 48.2 → 45.9

豆包 Pro -2.0

可用性: 99.0 → 97.0

GPT-o3 -2.0

可用性: 99.0 → 97.0

Grok 4 -1.4

性价比: 26.5 → 25.1

Gemini 2.5 Pro -1.3

性价比: 39.4 → 38.1

GPT-5.5 -1.0

性价比: 19.9 → 18.9

Grok 4 -1.0

稳定性: 33.6 → 32.6

Qwen3 Max -0.5

稳定性: 24.7 → 24.2

查看旧版维度变化（v5 向后兼容数据）

3 上升

8 下降

0 稳定

11 模型

本周上升

GLM-4.6：代码执行 +21.9

execution_raw

DeepSeek V4 Pro：任务表达 +9

communication_raw

Claude Sonnet 4.6：任务表达 +7.1

communication_raw

本周下降

GPT-o3：任务表达 -12.5

communication_raw

Claude Opus 4.7：代码执行 -9.8

execution_raw

Qwen3 Max：任务表达 -8

communication_raw

Gemini 2.5 Pro：工程判断 -7.8

Gemini 3.1 Pro：工程判断 -4.1

judgment_raw

AI模型本周升降榜

主变化 综合实力 core_overall

侧榜变化 判断力 / 表达力

运行信号变化 稳定性 / 可用性 / 性价比

本周上升

GLM-4.6

DeepSeek V4 Pro

Claude Sonnet 4.6

本周下降

GPT-o3

Claude Opus 4.7

Qwen3 Max

Gemini 2.5 Pro

豆包 Pro

GPT-5.5

Grok 4

Gemini 3.1 Pro

主变化综合实力 core_overall

侧榜变化判断力 / 表达力

运行信号变化稳定性 / 可用性 / 性价比