YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

2026 第26周 2026-26 2026-24 2026-23 2026-22 2026-21 2026-20 2026-19 2026-18 2026-06-15-同日对比

基准: Run #180 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-15 09:25 SGT 当前: Run #192 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-22 04:39 SGT

主变化综合实力 core_overall

Gemini 2.5 Pro +6.2

76.0 → 82.2

文心一言 4.5 +4.2

77.1 → 81.3

Grok 4 +1.9

88.0 → 89.9

Gemini 3.1 Pro +0.9

76.3 → 77.2

GPT-o3 +0.8

89.6 → 90.5

Claude Sonnet 4.6 -9.3

91.2 → 81.9

Qwen3 Max -5.3

93.1 → 87.8

Claude Opus 4.7 -4.7

95.3 → 90.6

GPT-5.5 -4.1

92.5 → 88.3

2 个模型表现稳定

DeepSeek V4 Pro (92.3) 豆包 Pro (88.1)

侧榜变化判断力 / 表达力

文心一言 4.5 +4.6

表达力: 68.2 → 72.8

文心一言 4.5 +2.9

判断力: 54.1 → 57.0

DeepSeek V4 Pro +1.2

判断力: 95.3 → 96.5

Claude Opus 4.7 +0.8

判断力: 95.3 → 96.1

Claude Opus 4.7 +0.6

表达力: 94.0 → 94.6

GPT-5.5 +0.6

判断力: 96.5 → 97.1

Gemini 2.5 Pro -9.9

判断力: 89.9 → 80.0

Grok 4 -5.6

判断力: 88.3 → 82.7

Grok 4 -2.7

表达力: 94.9 → 92.2

Claude Sonnet 4.6 -0.9

表达力: 94.3 → 93.4

豆包 Pro -0.6

表达力: 99.7 → 99.1

运行信号变化稳定性 / 可用性 / 性价比

文心一言 4.5 +8.6

稳定性: 26.4 → 35.0

Grok 4 +4.8

稳定性: 48.2 → 53.0

Gemini 2.5 Pro +4.6

稳定性: 55.8 → 60.4

DeepSeek V4 Pro +3.1

稳定性: 60.6 → 63.7

GPT-o3 +2.1

稳定性: 55.7 → 57.8

豆包 Pro +2.0

可用性: 96.0 → 98.0

Gemini 2.5 Pro +2.0

可用性: 87.0 → 89.0

Gemini 3.1 Pro +1.8

稳定性: 28.3 → 30.1

Gemini 2.5 Pro +1.6

性价比: 40.1 → 41.7

文心一言 4.5 +1.0

可用性: 99.0 → 100.0

DeepSeek V4 Pro +0.4

性价比: 50.3 → 50.7

Gemini 3.1 Pro +0.4

性价比: 26.7 → 27.1

Claude Sonnet 4.6 -16.0

稳定性: 58.0 → 42.0

Claude Opus 4.7 -13.0

稳定性: 67.3 → 54.3

豆包 Pro -5.6

稳定性: 66.7 → 61.1

Qwen3 Max -4.1

稳定性: 51.0 → 46.9

GPT-5.5 -2.2

稳定性: 58.8 → 56.6

Claude Sonnet 4.6 -1.7

性价比: 29.7 → 28.0

Qwen3 Max -1.5

性价比: 57.7 → 56.2

GPT-5.5 -0.5

性价比: 21.9 → 21.4

AI模型本周升降榜

主变化 综合实力 core_overall

侧榜变化 判断力 / 表达力

运行信号变化 稳定性 / 可用性 / 性价比

主变化综合实力 core_overall

侧榜变化判断力 / 表达力

运行信号变化稳定性 / 可用性 / 性价比