跳到主要内容
YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

基准: Run #180 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-15 09:25 SGT 当前: Run #192 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-22 04:39 SGT

主变化 综合实力 core_overall

Gemini 2.5 Pro +6.2
76.0 → 82.2
文心一言 4.5 +4.2
77.1 → 81.3
Grok 4 +1.9
88.0 → 89.9
Gemini 3.1 Pro +0.9
76.3 → 77.2
GPT-o3 +0.8
89.6 → 90.5
Claude Sonnet 4.6 -9.3
91.2 → 81.9
Qwen3 Max -5.3
93.1 → 87.8
Claude Opus 4.7 -4.7
95.3 → 90.6
GPT-5.5 -4.1
92.5 → 88.3
2 个模型表现稳定
DeepSeek V4 Pro (92.3) 豆包 Pro (88.1)

侧榜变化 判断力 / 表达力

文心一言 4.5 +4.6
表达力: 68.2 → 72.8
文心一言 4.5 +2.9
判断力: 54.1 → 57.0
DeepSeek V4 Pro +1.2
判断力: 95.3 → 96.5
Claude Opus 4.7 +0.8
判断力: 95.3 → 96.1
Claude Opus 4.7 +0.6
表达力: 94.0 → 94.6
GPT-5.5 +0.6
判断力: 96.5 → 97.1
Gemini 2.5 Pro -9.9
判断力: 89.9 → 80.0
Grok 4 -5.6
判断力: 88.3 → 82.7
Grok 4 -2.7
表达力: 94.9 → 92.2
Claude Sonnet 4.6 -0.9
表达力: 94.3 → 93.4
豆包 Pro -0.6
表达力: 99.7 → 99.1

运行信号变化 稳定性 / 可用性 / 性价比

文心一言 4.5 +8.6
稳定性: 26.4 → 35.0
Grok 4 +4.8
稳定性: 48.2 → 53.0
Gemini 2.5 Pro +4.6
稳定性: 55.8 → 60.4
DeepSeek V4 Pro +3.1
稳定性: 60.6 → 63.7
GPT-o3 +2.1
稳定性: 55.7 → 57.8
豆包 Pro +2.0
可用性: 96.0 → 98.0
Gemini 2.5 Pro +2.0
可用性: 87.0 → 89.0
Gemini 3.1 Pro +1.8
稳定性: 28.3 → 30.1
Gemini 2.5 Pro +1.6
性价比: 40.1 → 41.7
文心一言 4.5 +1.0
可用性: 99.0 → 100.0
DeepSeek V4 Pro +0.4
性价比: 50.3 → 50.7
Gemini 3.1 Pro +0.4
性价比: 26.7 → 27.1
Claude Sonnet 4.6 -16.0
稳定性: 58.0 → 42.0
Claude Opus 4.7 -13.0
稳定性: 67.3 → 54.3
豆包 Pro -5.6
稳定性: 66.7 → 61.1
Qwen3 Max -4.1
稳定性: 51.0 → 46.9
GPT-5.5 -2.2
稳定性: 58.8 → 56.6
Claude Sonnet 4.6 -1.7
性价比: 29.7 → 28.0
Qwen3 Max -1.5
性价比: 57.7 → 56.2
GPT-5.5 -0.5
性价比: 21.9 → 21.4

查看旧版维度变化(v5 向后兼容数据)
6 上升
5 下降
0 稳定
11 模型

本周上升

本周下降