YZ Index
AI模型本周升降榜
机器跑分 · 机器算变化 · 每周自动更新
基准: Run #131 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-25 04:16 SGT
当前: Run #142 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-06-01 04:17 SGT
主变化 综合实力 core_overall
Gemini 2.5 Pro
+29.7
49.3 → 79.0
Gemini 3.1 Pro
+24.3
52.8 → 77.1
文心一言 4.5
-12.5
74.2 → 61.7
Grok 4
-5.3
83.7 → 78.4
DeepSeek V4 Pro
-4.2
81.1 → 76.9
Claude Sonnet 4.6
-3.2
81.2 → 78.0
Qwen3 Max
-3.2
80.8 → 77.7
Claude Opus 4.7
-3.1
81.9 → 78.8
豆包 Pro
-2.9
81.6 → 78.8
GPT-o3
-2.6
78.5 → 75.9
GPT-5.5
-1.1
79.4 → 78.2
侧榜变化 判断力 / 表达力
Claude Opus 4.7
+10.0
表达力: 30.0 → 40.0
Claude Sonnet 4.6
+10.0
表达力: 30.0 → 40.0
豆包 Pro
+10.0
表达力: 30.0 → 40.0
Gemini 2.5 Pro
+10.0
表达力: 30.0 → 40.0
Gemini 3.1 Pro
+10.0
表达力: 30.0 → 40.0
GPT-5.5
+10.0
表达力: 30.0 → 40.0
GPT-o3
+10.0
表达力: 30.0 → 40.0
Grok 4
+10.0
表达力: 30.0 → 40.0
Qwen3 Max
+10.0
表达力: 30.0 → 40.0
DeepSeek V4 Pro
+5.0
表达力: 30.0 → 35.0
文心一言 4.5
+5.0
表达力: 30.0 → 35.0
Grok 4
+4.2
判断力: 37.0 → 41.2
Gemini 2.5 Pro
+1.4
判断力: 39.8 → 41.2
GPT-o3
+1.4
判断力: 39.8 → 41.2
Gemini 3.1 Pro
+1.3
判断力: 42.7 → 44.0
GPT-5.5
+1.3
判断力: 41.1 → 42.4
DeepSeek V4 Pro
-9.2
判断力: 44.7 → 35.5
豆包 Pro
-6.3
判断力: 47.5 → 41.2
Claude Opus 4.7
-4.4
判断力: 55.3 → 50.9
文心一言 4.5
-3.8
判断力: 39.8 → 36.0
Qwen3 Max
-3.5
判断力: 39.0 → 35.5
诚信评级变化 integrity_label 转变
文心一言 4.5
诚信恢复
⚠ warn →
✔ pass
运行信号变化 稳定性 / 可用性 / 性价比
Gemini 2.5 Pro
+24.0
可用性: 76.0 → 100.0
Gemini 3.1 Pro
+23.0
可用性: 77.0 → 100.0
Gemini 2.5 Pro
+11.1
性价比: 26.3 → 37.4
Gemini 3.1 Pro
+6.3
性价比: 18.2 → 24.5
Grok 4
+3.3
稳定性: 32.1 → 35.4
GPT-5.5
+1.4
稳定性: 34.7 → 36.1
Claude Opus 4.7
+1.0
可用性: 99.0 → 100.0
Gemini 3.1 Pro
+0.7
稳定性: 35.3 → 36.0
Gemini 2.5 Pro
+0.5
稳定性: 35.3 → 35.8
DeepSeek V4 Pro
-5.6
稳定性: 37.4 → 31.8
文心一言 4.5
-5.4
稳定性: 34.3 → 28.9
豆包 Pro
-4.3
稳定性: 41.7 → 37.4
Qwen3 Max
-4.2
稳定性: 36.3 → 32.1
Claude Opus 4.7
-4.0
稳定性: 42.2 → 38.2
Claude Sonnet 4.6
-3.2
稳定性: 39.7 → 36.5
GPT-o3
-2.1
稳定性: 35.9 → 33.8
DeepSeek V4 Pro
-1.7
性价比: 41.6 → 39.9
文心一言 4.5
-1.2
性价比: 98.3 → 97.1
豆包 Pro
-0.4
性价比: 92.2 → 91.8
查看旧版维度变化(v5 向后兼容数据)
10
上升
8
下降
0
稳定
18
模型
本周上升
文心一言 4.5
+70.7
文心一言 4.5:首次加入评测,综合分 70.7
主榜 (v5)
DeepSeek V4 Pro
+68
DeepSeek V4 Pro:首次加入评测,综合分 68.0
主榜 (v5)
Qwen3 Max
+67.9
Qwen3 Max:首次加入评测,综合分 67.9
主榜 (v5)
Grok 4
+64.5
Grok 4:首次加入评测,综合分 64.5
主榜 (v5)
Claude Opus 4.7
+64.2
Claude Opus 4.7:首次加入评测,综合分 64.2
主榜 (v5)
GPT-5.5
+62.4
GPT-5.5:首次加入评测,综合分 62.4
主榜 (v5)
Gemini 3.1 Pro
+48.7
Gemini 3.1 Pro:首次加入评测,综合分 48.7
主榜 (v5)
GPT-o3
+18.6
GPT-o3:材料约束 +18.6
grounding_raw
Claude Sonnet 4.6
+6.5
Claude Sonnet 4.6:工程判断 +6.5
judgment_raw
豆包 Pro
+4.8
豆包 Pro:工程判断 +4.8
judgment_raw
本周下降
DeepSeek V3
-75.1
DeepSeek V3:本周退出评测
主榜 (v5)
DeepSeek R1
-74
DeepSeek R1:本周退出评测
主榜 (v5)
文心一言 4.0
-71
文心一言 4.0:本周退出评测
主榜 (v5)
Grok 3
-65.6
Grok 3:本周退出评测
主榜 (v5)
Qwen Max
-64.8
Qwen Max:本周退出评测
主榜 (v5)
Claude Opus 4.6
-61.6
Claude Opus 4.6:本周退出评测
主榜 (v5)
GPT-4o
-59.8
GPT-4o:本周退出评测
主榜 (v5)
Gemini 2.5 Pro
-38.5
Gemini 2.5 Pro:代码执行 -38.5
execution_raw