YZ Index

AI模型本周升降榜

机器跑分 · 机器算变化 · 每周自动更新

2026 第22周 2026 第21周 2026 第20周 2026 第19周 2026 第18周 2026 第17周 2026 第16周 2026 第15周 2026 第14周 2026 第12周 2026-21 2026-20 2026-19 2026-18 2026-03-24-同日对比

基准: Run #122 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-18 04:18 SGT 当前: Run #131 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-05-25 04:16 SGT

主变化综合实力 core_overall

文心一言 4.5 +7.1

67.1 → 74.2

DeepSeek V4 Pro +4.7

76.4 → 81.1

Grok 4 +2.7

81.0 → 83.7

GPT-5.5 +2.3

77.0 → 79.4

Claude Opus 4.7 +1.9

80.0 → 81.9

Qwen3 Max +1.9

79.0 → 80.8

Gemini 2.5 Pro -29.7

79.0 → 49.3

Gemini 3.1 Pro -24.8

77.7 → 52.8

Claude Sonnet 4.6 -1.8

83.0 → 81.2

2 个模型表现稳定

豆包 Pro (81.6) GPT-o3 (78.5)

侧榜变化判断力 / 表达力

文心一言 4.5 +5.0

表达力: 25.0 → 30.0

DeepSeek V4 Pro +5.0

表达力: 25.0 → 30.0

Grok 4 +5.0

表达力: 25.0 → 30.0

DeepSeek V4 Pro +2.4

判断力: 42.3 → 44.7

Grok 4 -8.2

判断力: 45.2 → 37.0

Qwen3 Max -6.2

判断力: 45.2 → 39.0

Gemini 3.1 Pro -6.1

判断力: 48.8 → 42.7

Gemini 2.5 Pro -3.4

判断力: 43.2 → 39.8

GPT-o3 -3.4

判断力: 43.2 → 39.8

GPT-5.5 -2.1

判断力: 43.2 → 41.1

Claude Sonnet 4.6 -1.7

判断力: 52.9 → 51.2

诚信评级变化 integrity_label 转变

文心一言 4.5 诚信警告

✔ pass → ⚠ warn

运行信号变化稳定性 / 可用性 / 性价比

文心一言 4.5 +7.6

稳定性: 26.7 → 34.3

Claude Opus 4.7 +5.4

稳定性: 36.8 → 42.2

DeepSeek V4 Pro +3.5

稳定性: 33.9 → 37.4

豆包 Pro +3.5

稳定性: 38.2 → 41.7

GPT-o3 +2.4

稳定性: 33.5 → 35.9

Qwen3 Max +2.4

稳定性: 33.9 → 36.3

Claude Sonnet 4.6 +2.2

稳定性: 37.5 → 39.7

Grok 4 +1.5

稳定性: 30.6 → 32.1

DeepSeek V4 Pro +1.2

性价比: 40.4 → 41.6

Gemini 2.5 Pro +1.0

稳定性: 34.3 → 35.3

文心一言 4.5 +0.4

性价比: 97.9 → 98.3

Gemini 2.5 Pro -24.0

可用性: 100.0 → 76.0

Gemini 3.1 Pro -22.0

可用性: 99.0 → 77.0

Gemini 2.5 Pro -11.8

性价比: 38.1 → 26.3

Gemini 3.1 Pro -6.8

性价比: 25.0 → 18.2

Gemini 3.1 Pro -4.2

稳定性: 39.5 → 35.3

Claude Sonnet 4.6 -1.4

性价比: 26.0 → 24.6

Qwen3 Max -1.2

性价比: 50.7 → 49.5

Claude Opus 4.7 -1.0

可用性: 100.0 → 99.0

豆包 Pro -0.7

性价比: 92.9 → 92.2

GPT-5.5 -0.7

稳定性: 35.4 → 34.7

Grok 4 -0.5

性价比: 24.8 → 24.3

GPT-o3 -0.4

性价比: 8.9 → 8.5

查看旧版维度变化（v5 向后兼容数据）

10 上升

8 下降

0 稳定

18 模型

本周上升

文心一言 4.5：首次加入评测，综合分 72.0

主榜 (v5)

DeepSeek V4 Pro：首次加入评测，综合分 65.2

主榜 (v5)

Qwen3 Max：首次加入评测，综合分 64.9

主榜 (v5)

Gemini 3.1 Pro：首次加入评测，综合分 63.6

主榜 (v5)

Claude Opus 4.7：首次加入评测，综合分 62.5

主榜 (v5)

GPT-5.5：首次加入评测，综合分 59.6

主榜 (v5)

Grok 4：首次加入评测，综合分 41.5

主榜 (v5)

GPT-o3：材料约束 +20.9

grounding_raw

Claude Sonnet 4.6：工程判断 +10.2

judgment_raw

豆包 Pro：工程判断 +10.1

judgment_raw

本周下降

Claude Opus 4.6：本周退出评测

主榜 (v5)

GPT-4o：本周退出评测

主榜 (v5)

Gemini 2.5 Pro：代码执行 -5.4

execution_raw

AI模型本周升降榜

主变化 综合实力 core_overall

侧榜变化 判断力 / 表达力

诚信评级变化 integrity_label 转变

运行信号变化 稳定性 / 可用性 / 性价比

本周上升

文心一言 4.5

DeepSeek V4 Pro

Qwen3 Max

Gemini 3.1 Pro

Claude Opus 4.7

GPT-5.5

Grok 4

GPT-o3

Claude Sonnet 4.6

豆包 Pro

本周下降

DeepSeek V3

DeepSeek R1

文心一言 4.0

Grok 3

Qwen Max

Claude Opus 4.6

GPT-4o

Gemini 2.5 Pro

主变化综合实力 core_overall

侧榜变化判断力 / 表达力

运行信号变化稳定性 / 可用性 / 性价比