YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

2026 第30周 2026 第29周 2026 第27周 2026 第26周 2026-30 2026-29 2026-28 2026-27 2026-26 2026-24 2026-23 2026-22 2026-21 2026-20 2026-19 2026-18 2026-06-15-同日对比

基准: Run #230 · 公式 v7 · 判分 v6.4 · 题库 v7 · 2026-07-13 04:59 SGT 当前: Run #239 · 公式 v7 · 判分 v6.4 · 题库 v7 · 2026-07-20 04:53 SGT

主变化综合实力 core_overall

Qwen3 Max +5.0

69.0 → 74.1

豆包 Pro +1.8

78.2 → 80.0

GPT-5.5 +1.7

78.8 → 80.5

Claude Sonnet 4.6 +1.4

74.5 → 75.9

Gemini 2.5 Pro +1.3

72.8 → 74.1

Gemini 3.1 Pro -8.2

74.1 → 65.9

GLM-4.6 -6.6

59.8 → 53.2

DeepSeek V4 Pro -6.1

80.6 → 74.5

3 个模型表现稳定

Claude Opus 4.7 (83.0) GPT-o3 (77.3) Grok 4 (82.2)

侧榜变化判断力 / 表达力

Gemini 2.5 Pro +15.0

表达力: 65.8 → 80.8

GPT-o3 +12.5

表达力: 78.3 → 90.8

Gemini 2.5 Pro +11.4

判断力: 68.5 → 79.9

豆包 Pro +7.5

表达力: 85.8 → 93.3

DeepSeek V4 Pro +4.3

判断力: 84.1 → 88.4

Gemini 3.1 Pro +4.1

判断力: 77.8 → 81.9

Grok 4 +3.9

判断力: 69.7 → 73.6

GPT-o3 +1.5

判断力: 85.9 → 87.4

GLM-4.6 -30.8

表达力: 68.3 → 37.5

GLM-4.6 -20.0

判断力: 45.0 → 25.0

Gemini 3.1 Pro -10.0

表达力: 88.3 → 78.3

DeepSeek V4 Pro -9.0

表达力: 95.4 → 86.4

Claude Sonnet 4.6 -5.5

判断力: 91.5 → 86.0

Grok 4 -2.9

表达力: 85.8 → 82.9

Claude Sonnet 4.6 -2.5

表达力: 80.4 → 77.9

Claude Opus 4.7 -2.1

表达力: 64.9 → 62.8

豆包 Pro -1.8

判断力: 87.8 → 86.0

Qwen3 Max -1.1

判断力: 41.7 → 40.6

运行信号变化稳定性 / 可用性 / 性价比

Gemini 2.5 Pro +13.3

稳定性: 30.3 → 43.6

Qwen3 Max +2.9

稳定性: 21.8 → 24.7

豆包 Pro +2.8

稳定性: 36.6 → 39.4

GLM-4.6 +2.8

稳定性: 29.8 → 32.6

Qwen3 Max +2.3

性价比: 45.9 → 48.2

Gemini 2.5 Pro +2.2

性价比: 37.2 → 39.4

Grok 4 +1.5

稳定性: 32.1 → 33.6

GPT-5.5 +1.1

稳定性: 39.3 → 40.4

GPT-o3 +1.0

可用性: 98.0 → 99.0

豆包 Pro +0.7

性价比: 93.8 → 94.5

Claude Opus 4.7 +0.6

稳定性: 38.5 → 39.1

GPT-5.5 +0.6

性价比: 19.3 → 19.9

Claude Sonnet 4.6 +0.5

稳定性: 30.1 → 30.6

GPT-o3 +0.5

稳定性: 34.6 → 35.1

GLM-4.6 -15.6

可用性: 70.7 → 55.1

Gemini 3.1 Pro -7.2

稳定性: 29.0 → 21.8

GLM-4.6 -4.5

性价比: 32.5 → 28.0

Gemini 2.5 Pro -4.1

可用性: 94.9 → 90.8

DeepSeek V4 Pro -2.1

可用性: 98.0 → 95.9

DeepSeek V4 Pro -2.0

性价比: 45.8 → 43.8

DeepSeek V4 Pro -1.9

稳定性: 43.4 → 41.5

Gemini 3.1 Pro -1.6

性价比: 25.4 → 23.8

豆包 Pro -1.0

可用性: 100.0 → 99.0

AI模型本周升降榜

主变化 综合实力 core_overall

侧榜变化 判断力 / 表达力

运行信号变化 稳定性 / 可用性 / 性价比

主变化综合实力 core_overall

侧榜变化判断力 / 表达力

运行信号变化稳定性 / 可用性 / 性价比