YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

2026 第24周 2026 第23周 2026 第22周 2026 第21周 2026 第20周 2026 第19周 2026 第18周 2026 第17周 2026 第16周 2026 第15周 2026 第14周 2026 第12周 2026-24 2026-23 2026-22 2026-21 2026-20 2026-19 2026-18 2026-03-24-同日对比

基准: Run #142 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-06-01 04:17 SGT 当前: Run #154 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-06-08 04:18 SGT

主变化综合实力 core_overall

文心一言 4.5 +15.2

61.7 → 76.9

Grok 4 +11.5

78.4 → 89.9

Claude Opus 4.7 +10.2

78.8 → 89.0

豆包 Pro +10.0

78.8 → 88.8

Claude Sonnet 4.6 +9.3

78.0 → 87.2

Qwen3 Max +8.5

77.7 → 86.2

Gemini 3.1 Pro +7.7

77.1 → 84.8

Gemini 2.5 Pro +7.3

79.0 → 86.4

GPT-o3 +7.0

75.9 → 82.8

DeepSeek V4 Pro +6.4

76.9 → 83.3

GPT-5.5 +2.7

78.2 → 80.9

侧榜变化判断力 / 表达力

GPT-o3 +50.3

判断力: 41.2 → 91.5

Qwen3 Max +50.2

判断力: 35.5 → 85.7

DeepSeek V4 Pro +50.1

表达力: 35.0 → 85.1

GPT-5.5 +49.7

判断力: 42.4 → 92.1

Claude Opus 4.7 +49.4

表达力: 40.0 → 89.4

Claude Sonnet 4.6 +47.8

表达力: 40.0 → 87.8

Grok 4 +47.8

表达力: 40.0 → 87.8

豆包 Pro +47.6

判断力: 41.2 → 88.8

GPT-o3 +47.5

表达力: 40.0 → 87.5

GPT-5.5 +47.4

表达力: 40.0 → 87.4

DeepSeek V4 Pro +46.9

判断力: 35.5 → 82.4

Gemini 2.5 Pro +46.5

判断力: 41.2 → 87.7

Qwen3 Max +45.3

表达力: 40.0 → 85.3

Gemini 3.1 Pro +44.9

表达力: 40.0 → 84.9

Gemini 2.5 Pro +44.6

表达力: 40.0 → 84.6

豆包 Pro +44.1

表达力: 40.0 → 84.1

Claude Sonnet 4.6 +42.3

判断力: 50.9 → 93.2

Claude Opus 4.7 +42.2

判断力: 50.9 → 93.1

Gemini 3.1 Pro +41.2

判断力: 44.0 → 85.2

Grok 4 +40.9

判断力: 41.2 → 82.1

文心一言 4.5 +37.0

表达力: 35.0 → 72.0

文心一言 4.5 +36.2

判断力: 36.0 → 72.2

运行信号变化稳定性 / 可用性 / 性价比

豆包 Pro +33.8

稳定性: 37.4 → 71.2

Grok 4 +33.2

稳定性: 35.4 → 68.6

Gemini 2.5 Pro +30.2

稳定性: 35.8 → 66.0

Claude Opus 4.7 +29.5

稳定性: 38.2 → 67.7

Qwen3 Max +27.7

稳定性: 32.1 → 59.8

DeepSeek V4 Pro +27.3

稳定性: 31.8 → 59.1

Gemini 3.1 Pro +27.2

稳定性: 36.0 → 63.2

Claude Sonnet 4.6 +26.2

稳定性: 36.5 → 62.7

GPT-o3 +24.2

稳定性: 33.8 → 58.0

GPT-5.5 +15.7

稳定性: 36.1 → 51.8

文心一言 4.5 +15.3

稳定性: 28.9 → 44.2

Qwen3 Max +9.3

性价比: 49.2 → 58.5

DeepSeek V4 Pro +7.6

性价比: 39.9 → 47.5

Gemini 2.5 Pro +7.2

性价比: 37.4 → 44.6

Grok 4 +5.7

性价比: 24.0 → 29.7

Claude Sonnet 4.6 +5.3

性价比: 24.4 → 29.7

Gemini 3.1 Pro +4.8

性价比: 24.5 → 29.3

豆包 Pro +4.4

性价比: 91.8 → 96.2

GPT-5.5 +3.1

性价比: 17.3 → 20.4

文心一言 4.5 +2.2

性价比: 97.1 → 99.3

GPT-o3 +2.0

性价比: 8.5 → 10.5

Claude Opus 4.7 +1.2

性价比: 5.0 → 6.2

文心一言 4.5 +1.0

可用性: 99.0 → 100.0

Gemini 2.5 Pro -1.0

可用性: 100.0 → 99.0

Gemini 3.1 Pro -1.0

可用性: 100.0 → 99.0

查看旧版维度变化（v5 向后兼容数据）

11 上升

7 下降

0 稳定

18 模型

本周上升

Qwen3 Max：首次加入评测，综合分 66.5

主榜 (v5)

DeepSeek V4 Pro：首次加入评测，综合分 64.3

主榜 (v5)

文心一言 4.5：首次加入评测，综合分 64.3

主榜 (v5)

Grok 4：首次加入评测，综合分 64.2

主榜 (v5)

Gemini 3.1 Pro：首次加入评测，综合分 64.0

主榜 (v5)

GPT-5.5：首次加入评测，综合分 63.0

主榜 (v5)

Claude Opus 4.7：首次加入评测，综合分 62.8

主榜 (v5)

GPT-o3：任务表达 +15

communication_raw

Claude Sonnet 4.6：任务表达 +10

communication_raw

豆包 Pro：任务表达 +10

communication_raw

Gemini 2.5 Pro：任务表达 +10

communication_raw

本周下降

Claude Opus 4.6：本周退出评测

主榜 (v5)

GPT-4o：本周退出评测

主榜 (v5)

AI模型本周升降榜

主变化 综合实力 core_overall

侧榜变化 判断力 / 表达力

运行信号变化 稳定性 / 可用性 / 性价比

本周上升

Qwen3 Max

DeepSeek V4 Pro

文心一言 4.5

Grok 4

Gemini 3.1 Pro

GPT-5.5

Claude Opus 4.7

GPT-o3

Claude Sonnet 4.6

豆包 Pro

Gemini 2.5 Pro

本周下降

DeepSeek V3

DeepSeek R1

文心一言 4.0

Grok 3

Qwen Max

Claude Opus 4.6

GPT-4o

主变化综合实力 core_overall

侧榜变化判断力 / 表达力

运行信号变化稳定性 / 可用性 / 性价比