跳到主要内容
YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

基准: Run #142 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-06-01 04:17 SGT 当前: Run #154 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-06-08 04:18 SGT

主变化 综合实力 core_overall

文心一言 4.5 +15.2
61.7 → 76.9
Grok 4 +11.5
78.4 → 89.9
Claude Opus 4.7 +10.2
78.8 → 89.0
豆包 Pro +10.0
78.8 → 88.8
Claude Sonnet 4.6 +9.3
78.0 → 87.2
Qwen3 Max +8.5
77.7 → 86.2
Gemini 3.1 Pro +7.7
77.1 → 84.8
Gemini 2.5 Pro +7.3
79.0 → 86.4
GPT-o3 +7.0
75.9 → 82.8
DeepSeek V4 Pro +6.4
76.9 → 83.3
GPT-5.5 +2.7
78.2 → 80.9

侧榜变化 判断力 / 表达力

GPT-o3 +50.3
判断力: 41.2 → 91.5
Qwen3 Max +50.2
判断力: 35.5 → 85.7
DeepSeek V4 Pro +50.1
表达力: 35.0 → 85.1
GPT-5.5 +49.7
判断力: 42.4 → 92.1
Claude Opus 4.7 +49.4
表达力: 40.0 → 89.4
Claude Sonnet 4.6 +47.8
表达力: 40.0 → 87.8
Grok 4 +47.8
表达力: 40.0 → 87.8
豆包 Pro +47.6
判断力: 41.2 → 88.8
GPT-o3 +47.5
表达力: 40.0 → 87.5
GPT-5.5 +47.4
表达力: 40.0 → 87.4
DeepSeek V4 Pro +46.9
判断力: 35.5 → 82.4
Gemini 2.5 Pro +46.5
判断力: 41.2 → 87.7
Qwen3 Max +45.3
表达力: 40.0 → 85.3
Gemini 3.1 Pro +44.9
表达力: 40.0 → 84.9
Gemini 2.5 Pro +44.6
表达力: 40.0 → 84.6
豆包 Pro +44.1
表达力: 40.0 → 84.1
Claude Sonnet 4.6 +42.3
判断力: 50.9 → 93.2
Claude Opus 4.7 +42.2
判断力: 50.9 → 93.1
Gemini 3.1 Pro +41.2
判断力: 44.0 → 85.2
Grok 4 +40.9
判断力: 41.2 → 82.1
文心一言 4.5 +37.0
表达力: 35.0 → 72.0
文心一言 4.5 +36.2
判断力: 36.0 → 72.2

运行信号变化 稳定性 / 可用性 / 性价比

豆包 Pro +33.8
稳定性: 37.4 → 71.2
Grok 4 +33.2
稳定性: 35.4 → 68.6
Gemini 2.5 Pro +30.2
稳定性: 35.8 → 66.0
Claude Opus 4.7 +29.5
稳定性: 38.2 → 67.7
Qwen3 Max +27.7
稳定性: 32.1 → 59.8
DeepSeek V4 Pro +27.3
稳定性: 31.8 → 59.1
Gemini 3.1 Pro +27.2
稳定性: 36.0 → 63.2
Claude Sonnet 4.6 +26.2
稳定性: 36.5 → 62.7
GPT-o3 +24.2
稳定性: 33.8 → 58.0
GPT-5.5 +15.7
稳定性: 36.1 → 51.8
文心一言 4.5 +15.3
稳定性: 28.9 → 44.2
Qwen3 Max +9.3
性价比: 49.2 → 58.5
DeepSeek V4 Pro +7.6
性价比: 39.9 → 47.5
Gemini 2.5 Pro +7.2
性价比: 37.4 → 44.6
Grok 4 +5.7
性价比: 24.0 → 29.7
Claude Sonnet 4.6 +5.3
性价比: 24.4 → 29.7
Gemini 3.1 Pro +4.8
性价比: 24.5 → 29.3
豆包 Pro +4.4
性价比: 91.8 → 96.2
GPT-5.5 +3.1
性价比: 17.3 → 20.4
文心一言 4.5 +2.2
性价比: 97.1 → 99.3
GPT-o3 +2.0
性价比: 8.5 → 10.5
Claude Opus 4.7 +1.2
性价比: 5.0 → 6.2
文心一言 4.5 +1.0
可用性: 99.0 → 100.0
Gemini 2.5 Pro -1.0
可用性: 100.0 → 99.0
Gemini 3.1 Pro -1.0
可用性: 100.0 → 99.0

查看旧版维度变化(v5 向后兼容数据)
11 上升
7 下降
0 稳定
18 模型

本周上升

本周下降