YZ Index
AI模型本周升降榜
机器跑分 · 机器算变化 · 每周自动更新
基准: Run #78 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-20 04:15 SGT
当前: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT
主变化 综合实力 core_overall
Claude Sonnet 4.6
+7.3
76.8 → 84.1
Claude Opus 4.6
+3.9
79.6 → 83.4
GPT-o3
+3.7
58.9 → 62.5
Gemini 2.5 Pro
+3.5
80.9 → 84.3
GPT-4o
+2.4
62.9 → 65.4
豆包 Pro
+1.4
85.1 → 86.4
DeepSeek R1
-5.6
81.4 → 75.9
文心一言 4.0
-3.0
77.9 → 74.9
2 个模型表现稳定
DeepSeek V3 (80.8)
Qwen Max (77.9)
侧榜变化 判断力 / 表达力
Gemini 2.5 Pro
+5.7
判断力: 41.5 → 47.2
DeepSeek V3
+2.8
判断力: 41.5 → 44.3
GPT-4o
+2.5
判断力: 39.0 → 41.5
Claude Opus 4.6
-10.0
表达力: 50.0 → 40.0
Claude Sonnet 4.6
-5.0
表达力: 45.0 → 40.0
DeepSeek R1
-5.0
表达力: 45.0 → 40.0
DeepSeek V3
-5.0
表达力: 45.0 → 40.0
豆包 Pro
-5.0
表达力: 45.0 → 40.0
Gemini 2.5 Pro
-5.0
表达力: 45.0 → 40.0
DeepSeek R1
-2.8
判断力: 41.5 → 38.7
Claude Sonnet 4.6
-2.5
判断力: 46.3 → 43.8
Qwen Max
-0.8
判断力: 41.5 → 40.7
文心一言 4.0
-0.6
判断力: 40.3 → 39.7
诚信评级变化 integrity_label 转变
DeepSeek R1
诚信警告
✔ pass →
⚠ warn
DeepSeek V3
诚信警告
✔ pass →
⚠ warn
运行信号变化 稳定性 / 可用性 / 性价比
GPT-o3
+1.3
可用性: 85.7 → 87.0
GPT-4o
+1.2
可用性: 89.8 → 91.0
豆包 Pro
+1.0
可用性: 99.0 → 100.0
Claude Sonnet 4.6
+0.9
性价比: 24.2 → 25.1
GPT-o3
-5.5
稳定性: 34.4 → 28.9
Claude Opus 4.6
-4.3
稳定性: 39.5 → 35.2
DeepSeek R1
-4.1
稳定性: 34.3 → 30.2
DeepSeek R1
-3.1
性价比: 93.4 → 90.3
DeepSeek V3
-2.9
稳定性: 35.7 → 32.8
Claude Sonnet 4.6
-2.8
稳定性: 38.5 → 35.7
GPT-4o
-2.5
稳定性: 32.9 → 30.4
Qwen Max
-2.3
性价比: 50.9 → 48.6
豆包 Pro
-1.7
稳定性: 40.5 → 38.8
Claude Sonnet 4.6
-1.0
可用性: 100.0 → 99.0
Qwen Max
-0.8
稳定性: 33.5 → 32.7
豆包 Pro
-0.7
性价比: 94.0 → 93.3
文心一言 4.0
-0.4
性价比: 99.0 → 98.6
查看旧版维度变化(v5 向后兼容数据)
9
上升
2
下降
0
稳定
11
模型
本周上升
Claude Sonnet 4.6
+5
Claude Sonnet 4.6:任务表达 +5
communication_raw
文心一言 4.0
+5
文心一言 4.0:任务表达 +5
communication_raw
Qwen Max
+5
Qwen Max:任务表达 +5
communication_raw
DeepSeek R1
+4.9
DeepSeek R1:工程判断 +4.9
judgment_raw
DeepSeek V3
+4.5
DeepSeek V3:材料约束 +4.5
grounding_raw
Claude Opus 4.6
+4.1
Claude Opus 4.6:材料约束 +4.1
grounding_raw
豆包 Pro
+3.3
豆包 Pro:工程判断 +3.3
judgment_raw
Gemini 2.5 Pro
+3.3
Gemini 2.5 Pro:工程判断 +3.3
judgment_raw
Grok 3
+3.3
Grok 3:工程判断 +3.3
judgment_raw