跳到主要内容
YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

基准: Run #175 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-14 10:30 SGT 当前: Run #177 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-15 04:54 SGT

主变化 综合实力 core_overall

Gemini 2.5 Pro +6.2
64.8 → 71.0
Gemini 3.1 Pro +0.7
73.9 → 74.6
Claude Opus 4.7 -4.8
88.1 → 83.3
Grok 4 -4.6
87.0 → 82.4
文心一言 4.5 -3.6
59.1 → 55.5
DeepSeek V4 Pro -2.9
84.0 → 81.1
GPT-5.5 -2.9
86.0 → 83.2
Claude Sonnet 4.6 -2.8
80.7 → 77.8
GPT-o3 -2.2
81.9 → 79.8
豆包 Pro -0.8
79.1 → 78.3
1 个模型表现稳定
Qwen3 Max (78.6)

侧榜变化 判断力 / 表达力

Qwen3 Max +11.0
表达力: 73.5 → 84.5
文心一言 4.5 +8.2
表达力: 68.9 → 77.1
Claude Opus 4.7 +6.8
判断力: 77.7 → 84.5
Claude Sonnet 4.6 +5.9
表达力: 85.0 → 90.9
GPT-o3 +2.6
判断力: 74.0 → 76.6
Gemini 2.5 Pro +2.5
表达力: 88.3 → 90.8
Claude Sonnet 4.6 +2.4
判断力: 80.7 → 83.1
DeepSeek V4 Pro +2.4
判断力: 76.6 → 79.0
文心一言 4.5 -8.5
判断力: 67.6 → 59.1
Grok 4 -8.1
表达力: 90.4 → 82.3
GPT-5.5 -5.8
判断力: 83.8 → 78.0
Grok 4 -5.5
判断力: 75.9 → 70.4
Gemini 3.1 Pro -5.4
表达力: 93.9 → 88.5
GPT-5.5 -4.0
表达力: 93.5 → 89.5
GPT-o3 -3.0
表达力: 92.1 → 89.1
DeepSeek V4 Pro -2.5
表达力: 92.3 → 89.8
Claude Opus 4.7 -1.5
表达力: 91.4 → 89.9
Qwen3 Max -1.2
判断力: 80.9 → 79.7
豆包 Pro -0.6
表达力: 90.4 → 89.8

诚信评级变化 integrity_label 转变

文心一言 4.5 诚信恢复
⚠ warn✔ pass

运行信号变化 稳定性 / 可用性 / 性价比

Gemini 2.5 Pro +13.7
稳定性: 43.8 → 57.5
Qwen3 Max +5.3
稳定性: 44.1 → 49.4
Gemini 3.1 Pro +3.6
稳定性: 34.8 → 38.4
豆包 Pro +3.2
稳定性: 52.0 → 55.2
Claude Opus 4.7 +2.8
稳定性: 48.7 → 51.5
Gemini 2.5 Pro +2.4
性价比: 35.4 → 37.8
Claude Sonnet 4.6 +2.2
稳定性: 43.1 → 45.3
GPT-5.5 +1.8
稳定性: 55.6 → 57.4
Qwen3 Max +1.2
性价比: 52.6 → 53.8
Gemini 2.5 Pro +0.9
可用性: 91.0 → 91.9
文心一言 4.5 +0.6
稳定性: 30.0 → 30.6
GPT-o3 +0.5
稳定性: 50.4 → 50.9
Grok 4 -5.9
稳定性: 52.6 → 46.7
DeepSeek V4 Pro -5.6
稳定性: 55.3 → 49.7
GPT-5.5 -2.0
可用性: 99.0 → 97.0
Grok 4 -0.9
性价比: 27.1 → 26.2
DeepSeek V4 Pro -0.6
性价比: 45.7 → 45.1
文心一言 4.5 -0.5
性价比: 97.4 → 96.9
GPT-5.5 -0.4
性价比: 20.0 → 19.6