YZ Index
AI模型本周升降榜
机器跑分 · 机器算变化 · 每周自动更新
基准: Run #122 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-18 04:18 SGT
当前: Run #131 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-25 04:16 SGT
主变化 综合实力 core_overall
文心一言 4.5
+7.1
67.1 → 74.2
DeepSeek V4 Pro
+4.7
76.4 → 81.1
Grok 4
+2.7
81.0 → 83.7
GPT-5.5
+2.3
77.0 → 79.4
Claude Opus 4.7
+1.9
80.0 → 81.9
Qwen3 Max
+1.9
79.0 → 80.8
Gemini 2.5 Pro
-29.7
79.0 → 49.3
Gemini 3.1 Pro
-24.8
77.7 → 52.8
Claude Sonnet 4.6
-1.8
83.0 → 81.2
2 个模型表现稳定
豆包 Pro (81.6)
GPT-o3 (78.5)
侧榜变化 判断力 / 表达力
文心一言 4.5
+5.0
表达力: 25.0 → 30.0
DeepSeek V4 Pro
+5.0
表达力: 25.0 → 30.0
Grok 4
+5.0
表达力: 25.0 → 30.0
DeepSeek V4 Pro
+2.4
判断力: 42.3 → 44.7
Grok 4
-8.2
判断力: 45.2 → 37.0
Qwen3 Max
-6.2
判断力: 45.2 → 39.0
Gemini 3.1 Pro
-6.1
判断力: 48.8 → 42.7
Gemini 2.5 Pro
-3.4
判断力: 43.2 → 39.8
GPT-o3
-3.4
判断力: 43.2 → 39.8
GPT-5.5
-2.1
判断力: 43.2 → 41.1
Claude Sonnet 4.6
-1.7
判断力: 52.9 → 51.2
诚信评级变化 integrity_label 转变
文心一言 4.5
诚信警告
✔ pass →
⚠ warn
运行信号变化 稳定性 / 可用性 / 性价比
文心一言 4.5
+7.6
稳定性: 26.7 → 34.3
Claude Opus 4.7
+5.4
稳定性: 36.8 → 42.2
DeepSeek V4 Pro
+3.5
稳定性: 33.9 → 37.4
豆包 Pro
+3.5
稳定性: 38.2 → 41.7
GPT-o3
+2.4
稳定性: 33.5 → 35.9
Qwen3 Max
+2.4
稳定性: 33.9 → 36.3
Claude Sonnet 4.6
+2.2
稳定性: 37.5 → 39.7
Grok 4
+1.5
稳定性: 30.6 → 32.1
DeepSeek V4 Pro
+1.2
性价比: 40.4 → 41.6
Gemini 2.5 Pro
+1.0
稳定性: 34.3 → 35.3
文心一言 4.5
+0.4
性价比: 97.9 → 98.3
Gemini 2.5 Pro
-24.0
可用性: 100.0 → 76.0
Gemini 3.1 Pro
-22.0
可用性: 99.0 → 77.0
Gemini 2.5 Pro
-11.8
性价比: 38.1 → 26.3
Gemini 3.1 Pro
-6.8
性价比: 25.0 → 18.2
Gemini 3.1 Pro
-4.2
稳定性: 39.5 → 35.3
Claude Sonnet 4.6
-1.4
性价比: 26.0 → 24.6
Qwen3 Max
-1.2
性价比: 50.7 → 49.5
Claude Opus 4.7
-1.0
可用性: 100.0 → 99.0
豆包 Pro
-0.7
性价比: 92.9 → 92.2
GPT-5.5
-0.7
稳定性: 35.4 → 34.7
Grok 4
-0.5
性价比: 24.8 → 24.3
GPT-o3
-0.4
性价比: 8.9 → 8.5
查看旧版维度变化(v5 向后兼容数据)
11
上升
0
下降
0
稳定
11
模型
本周上升
文心一言 4.0
+15
文心一言 4.0:任务表达 +15
communication_raw
GPT-4o
+15
GPT-4o:任务表达 +15
communication_raw
GPT-o3
+15
GPT-o3:任务表达 +15
communication_raw
Qwen Max
+15
Qwen Max:任务表达 +15
communication_raw
Claude Opus 4.6
+13.3
Claude Opus 4.6:材料约束 +13.3
grounding_raw
Claude Sonnet 4.6
+10
Claude Sonnet 4.6:任务表达 +10
communication_raw
DeepSeek R1
+10
DeepSeek R1:任务表达 +10
communication_raw
DeepSeek V3
+10
DeepSeek V3:任务表达 +10
communication_raw
豆包 Pro
+10
豆包 Pro:任务表达 +10
communication_raw
Gemini 2.5 Pro
+10
Gemini 2.5 Pro:任务表达 +10
communication_raw
Grok 3
+10
Grok 3:任务表达 +10
communication_raw