YZ Index
AI模型本周升降榜
机器跑分 · 机器算变化 · 每周自动更新
基准: Run #180 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-15 09:25 SGT
当前: Run #192 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-22 04:39 SGT
主变化 综合实力 core_overall
Gemini 2.5 Pro
+6.2
76.0 → 82.2
文心一言 4.5
+4.2
77.1 → 81.3
Grok 4
+1.9
88.0 → 89.9
Gemini 3.1 Pro
+0.9
76.3 → 77.2
GPT-o3
+0.8
89.6 → 90.5
Claude Sonnet 4.6
-9.3
91.2 → 81.9
Qwen3 Max
-5.3
93.1 → 87.8
Claude Opus 4.7
-4.7
95.3 → 90.6
GPT-5.5
-4.1
92.5 → 88.3
2 个模型表现稳定
DeepSeek V4 Pro (92.3)
豆包 Pro (88.1)
侧榜变化 判断力 / 表达力
文心一言 4.5
+4.6
表达力: 68.2 → 72.8
文心一言 4.5
+2.9
判断力: 54.1 → 57.0
DeepSeek V4 Pro
+1.2
判断力: 95.3 → 96.5
Claude Opus 4.7
+0.8
判断力: 95.3 → 96.1
Claude Opus 4.7
+0.6
表达力: 94.0 → 94.6
GPT-5.5
+0.6
判断力: 96.5 → 97.1
Gemini 2.5 Pro
-9.9
判断力: 89.9 → 80.0
Grok 4
-5.6
判断力: 88.3 → 82.7
Grok 4
-2.7
表达力: 94.9 → 92.2
Claude Sonnet 4.6
-0.9
表达力: 94.3 → 93.4
豆包 Pro
-0.6
表达力: 99.7 → 99.1
运行信号变化 稳定性 / 可用性 / 性价比
文心一言 4.5
+8.6
稳定性: 26.4 → 35.0
Grok 4
+4.8
稳定性: 48.2 → 53.0
Gemini 2.5 Pro
+4.6
稳定性: 55.8 → 60.4
DeepSeek V4 Pro
+3.1
稳定性: 60.6 → 63.7
GPT-o3
+2.1
稳定性: 55.7 → 57.8
豆包 Pro
+2.0
可用性: 96.0 → 98.0
Gemini 2.5 Pro
+2.0
可用性: 87.0 → 89.0
Gemini 3.1 Pro
+1.8
稳定性: 28.3 → 30.1
Gemini 2.5 Pro
+1.6
性价比: 40.1 → 41.7
文心一言 4.5
+1.0
可用性: 99.0 → 100.0
DeepSeek V4 Pro
+0.4
性价比: 50.3 → 50.7
Gemini 3.1 Pro
+0.4
性价比: 26.7 → 27.1
Claude Sonnet 4.6
-16.0
稳定性: 58.0 → 42.0
Claude Opus 4.7
-13.0
稳定性: 67.3 → 54.3
豆包 Pro
-5.6
稳定性: 66.7 → 61.1
Qwen3 Max
-4.1
稳定性: 51.0 → 46.9
GPT-5.5
-2.2
稳定性: 58.8 → 56.6
Claude Sonnet 4.6
-1.7
性价比: 29.7 → 28.0
Qwen3 Max
-1.5
性价比: 57.7 → 56.2
GPT-5.5
-0.5
性价比: 21.9 → 21.4
查看旧版维度变化(v5 向后兼容数据)
6
上升
5
下降
0
稳定
11
模型
本周上升
Gemini 2.5 Pro
+11.6
Gemini 2.5 Pro:代码执行 +11.6
execution_raw
文心一言 4.5
+7
文心一言 4.5:代码执行 +7
execution_raw
豆包 Pro
+2.6
豆包 Pro:代码执行 +2.6
execution_raw
Gemini 3.1 Pro
+2.4
Gemini 3.1 Pro:代码执行 +2.4
execution_raw
DeepSeek V4 Pro
+2.1
DeepSeek V4 Pro:代码执行 +2.1
execution_raw
GPT-o3
+2
GPT-o3:代码执行 +2
execution_raw