跳到主要内容
YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

基准: Run #122 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-18 04:18 SGT 当前: Run #131 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-25 04:16 SGT

主变化 综合实力 core_overall

文心一言 4.5 +7.1
67.1 → 74.2
DeepSeek V4 Pro +4.7
76.4 → 81.1
Grok 4 +2.7
81.0 → 83.7
GPT-5.5 +2.3
77.0 → 79.4
Claude Opus 4.7 +1.9
80.0 → 81.9
Qwen3 Max +1.9
79.0 → 80.8
Gemini 2.5 Pro -29.7
79.0 → 49.3
Gemini 3.1 Pro -24.8
77.7 → 52.8
Claude Sonnet 4.6 -1.8
83.0 → 81.2
2 个模型表现稳定
豆包 Pro (81.6) GPT-o3 (78.5)

侧榜变化 判断力 / 表达力

文心一言 4.5 +5.0
表达力: 25.0 → 30.0
DeepSeek V4 Pro +5.0
表达力: 25.0 → 30.0
Grok 4 +5.0
表达力: 25.0 → 30.0
DeepSeek V4 Pro +2.4
判断力: 42.3 → 44.7
Grok 4 -8.2
判断力: 45.2 → 37.0
Qwen3 Max -6.2
判断力: 45.2 → 39.0
Gemini 3.1 Pro -6.1
判断力: 48.8 → 42.7
Gemini 2.5 Pro -3.4
判断力: 43.2 → 39.8
GPT-o3 -3.4
判断力: 43.2 → 39.8
GPT-5.5 -2.1
判断力: 43.2 → 41.1
Claude Sonnet 4.6 -1.7
判断力: 52.9 → 51.2

诚信评级变化 integrity_label 转变

文心一言 4.5 诚信警告
✔ pass⚠ warn

运行信号变化 稳定性 / 可用性 / 性价比

文心一言 4.5 +7.6
稳定性: 26.7 → 34.3
Claude Opus 4.7 +5.4
稳定性: 36.8 → 42.2
DeepSeek V4 Pro +3.5
稳定性: 33.9 → 37.4
豆包 Pro +3.5
稳定性: 38.2 → 41.7
GPT-o3 +2.4
稳定性: 33.5 → 35.9
Qwen3 Max +2.4
稳定性: 33.9 → 36.3
Claude Sonnet 4.6 +2.2
稳定性: 37.5 → 39.7
Grok 4 +1.5
稳定性: 30.6 → 32.1
DeepSeek V4 Pro +1.2
性价比: 40.4 → 41.6
Gemini 2.5 Pro +1.0
稳定性: 34.3 → 35.3
文心一言 4.5 +0.4
性价比: 97.9 → 98.3
Gemini 2.5 Pro -24.0
可用性: 100.0 → 76.0
Gemini 3.1 Pro -22.0
可用性: 99.0 → 77.0
Gemini 2.5 Pro -11.8
性价比: 38.1 → 26.3
Gemini 3.1 Pro -6.8
性价比: 25.0 → 18.2
Gemini 3.1 Pro -4.2
稳定性: 39.5 → 35.3
Claude Sonnet 4.6 -1.4
性价比: 26.0 → 24.6
Qwen3 Max -1.2
性价比: 50.7 → 49.5
Claude Opus 4.7 -1.0
可用性: 100.0 → 99.0
豆包 Pro -0.7
性价比: 92.9 → 92.2
GPT-5.5 -0.7
稳定性: 35.4 → 34.7
Grok 4 -0.5
性价比: 24.8 → 24.3
GPT-o3 -0.4
性价比: 8.9 → 8.5

查看旧版维度变化(v5 向后兼容数据)
10 上升
8 下降
0 稳定
18 模型

本周上升

本周下降