YZ Index
AI模型本周升降榜
机器跑分 · 机器算变化 · 每周自动更新
基准: Run #142 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-06-01 04:17 SGT
当前: Run #154 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-06-08 04:18 SGT
主变化 综合实力 core_overall
文心一言 4.5
+15.2
61.7 → 76.9
Grok 4
+11.5
78.4 → 89.9
Claude Opus 4.7
+10.2
78.8 → 89.0
豆包 Pro
+10.0
78.8 → 88.8
Claude Sonnet 4.6
+9.3
78.0 → 87.2
Qwen3 Max
+8.5
77.7 → 86.2
Gemini 3.1 Pro
+7.7
77.1 → 84.8
Gemini 2.5 Pro
+7.3
79.0 → 86.4
GPT-o3
+7.0
75.9 → 82.8
DeepSeek V4 Pro
+6.4
76.9 → 83.3
GPT-5.5
+2.7
78.2 → 80.9
侧榜变化 判断力 / 表达力
GPT-o3
+50.3
判断力: 41.2 → 91.5
Qwen3 Max
+50.2
判断力: 35.5 → 85.7
DeepSeek V4 Pro
+50.1
表达力: 35.0 → 85.1
GPT-5.5
+49.7
判断力: 42.4 → 92.1
Claude Opus 4.7
+49.4
表达力: 40.0 → 89.4
Claude Sonnet 4.6
+47.8
表达力: 40.0 → 87.8
Grok 4
+47.8
表达力: 40.0 → 87.8
豆包 Pro
+47.6
判断力: 41.2 → 88.8
GPT-o3
+47.5
表达力: 40.0 → 87.5
GPT-5.5
+47.4
表达力: 40.0 → 87.4
DeepSeek V4 Pro
+46.9
判断力: 35.5 → 82.4
Gemini 2.5 Pro
+46.5
判断力: 41.2 → 87.7
Qwen3 Max
+45.3
表达力: 40.0 → 85.3
Gemini 3.1 Pro
+44.9
表达力: 40.0 → 84.9
Gemini 2.5 Pro
+44.6
表达力: 40.0 → 84.6
豆包 Pro
+44.1
表达力: 40.0 → 84.1
Claude Sonnet 4.6
+42.3
判断力: 50.9 → 93.2
Claude Opus 4.7
+42.2
判断力: 50.9 → 93.1
Gemini 3.1 Pro
+41.2
判断力: 44.0 → 85.2
Grok 4
+40.9
判断力: 41.2 → 82.1
文心一言 4.5
+37.0
表达力: 35.0 → 72.0
文心一言 4.5
+36.2
判断力: 36.0 → 72.2
运行信号变化 稳定性 / 可用性 / 性价比
豆包 Pro
+33.8
稳定性: 37.4 → 71.2
Grok 4
+33.2
稳定性: 35.4 → 68.6
Gemini 2.5 Pro
+30.2
稳定性: 35.8 → 66.0
Claude Opus 4.7
+29.5
稳定性: 38.2 → 67.7
Qwen3 Max
+27.7
稳定性: 32.1 → 59.8
DeepSeek V4 Pro
+27.3
稳定性: 31.8 → 59.1
Gemini 3.1 Pro
+27.2
稳定性: 36.0 → 63.2
Claude Sonnet 4.6
+26.2
稳定性: 36.5 → 62.7
GPT-o3
+24.2
稳定性: 33.8 → 58.0
GPT-5.5
+15.7
稳定性: 36.1 → 51.8
文心一言 4.5
+15.3
稳定性: 28.9 → 44.2
Qwen3 Max
+9.3
性价比: 49.2 → 58.5
DeepSeek V4 Pro
+7.6
性价比: 39.9 → 47.5
Gemini 2.5 Pro
+7.2
性价比: 37.4 → 44.6
Grok 4
+5.7
性价比: 24.0 → 29.7
Claude Sonnet 4.6
+5.3
性价比: 24.4 → 29.7
Gemini 3.1 Pro
+4.8
性价比: 24.5 → 29.3
豆包 Pro
+4.4
性价比: 91.8 → 96.2
GPT-5.5
+3.1
性价比: 17.3 → 20.4
文心一言 4.5
+2.2
性价比: 97.1 → 99.3
GPT-o3
+2.0
性价比: 8.5 → 10.5
Claude Opus 4.7
+1.2
性价比: 5.0 → 6.2
文心一言 4.5
+1.0
可用性: 99.0 → 100.0
Gemini 2.5 Pro
-1.0
可用性: 100.0 → 99.0
Gemini 3.1 Pro
-1.0
可用性: 100.0 → 99.0
查看旧版维度变化(v5 向后兼容数据)
11
上升
7
下降
0
稳定
18
模型
本周上升
Qwen3 Max
+66.5
Qwen3 Max:首次加入评测,综合分 66.5
主榜 (v5)
DeepSeek V4 Pro
+64.3
DeepSeek V4 Pro:首次加入评测,综合分 64.3
主榜 (v5)
文心一言 4.5
+64.3
文心一言 4.5:首次加入评测,综合分 64.3
主榜 (v5)
Grok 4
+64.2
Grok 4:首次加入评测,综合分 64.2
主榜 (v5)
Gemini 3.1 Pro
+64
Gemini 3.1 Pro:首次加入评测,综合分 64.0
主榜 (v5)
GPT-5.5
+63
GPT-5.5:首次加入评测,综合分 63.0
主榜 (v5)
Claude Opus 4.7
+62.8
Claude Opus 4.7:首次加入评测,综合分 62.8
主榜 (v5)
GPT-o3
+15
GPT-o3:任务表达 +15
communication_raw
Claude Sonnet 4.6
+10
Claude Sonnet 4.6:任务表达 +10
communication_raw
豆包 Pro
+10
豆包 Pro:任务表达 +10
communication_raw
Gemini 2.5 Pro
+10
Gemini 2.5 Pro:任务表达 +10
communication_raw