跳到主要内容
YZ Index

最近两次评测对比

同日两次评测对比 · 非跨周变化

基准: Run #61 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-06 04:18 SGT 当前: Run #69 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-13 04:19 SGT

主变化 综合实力 core_overall

GPT-4o +10.3
56.4 → 66.7
GPT-o3 +5.7
65.4 → 71.1
文心一言 4.0 +2.8
69.3 → 72.1
Claude Opus 4.6 +0.6
74.4 → 74.9
Gemini 2.5 Pro -4.0
80.7 → 76.8
豆包 Pro -2.5
81.7 → 79.3
Qwen Max -2.0
73.5 → 71.5
DeepSeek V3 -1.6
77.1 → 75.6
DeepSeek R1 -1.3
79.1 → 77.8
Claude Sonnet 4.6 -1.0
76.3 → 75.3
1 个模型表现稳定
Grok 3 (76.3)

侧榜变化 判断力 / 表达力

Claude Opus 4.6 +5.0
表达力: 35.0 → 40.0
Claude Sonnet 4.6 +5.0
表达力: 35.0 → 40.0
Grok 3 +5.0
表达力: 35.0 → 40.0
GPT-o3 +5.0
表达力: 30.0 → 35.0
GPT-4o +5.0
表达力: 30.0 → 35.0
Gemini 2.5 Pro +5.0
表达力: 35.0 → 40.0
Qwen Max +5.0
表达力: 30.0 → 35.0
文心一言 4.0 +5.0
表达力: 30.0 → 35.0
豆包 Pro +5.0
表达力: 35.0 → 40.0
DeepSeek V3 +5.0
表达力: 35.0 → 40.0
GPT-4o +4.5
判断力: 37.8 → 42.3
GPT-o3 +4.1
判断力: 38.2 → 42.3
文心一言 4.0 +2.8
判断力: 37.2 → 40.0
DeepSeek R1 +2.4
判断力: 41.2 → 43.6
DeepSeek V3 +2.0
判断力: 40.3 → 42.3
Grok 3 +1.2
判断力: 44.0 → 45.2
Gemini 2.5 Pro +1.1
判断力: 41.2 → 42.3
Claude Opus 4.6 -3.6
判断力: 48.8 → 45.2
Qwen Max -2.0
判断力: 40.3 → 38.3
Claude Sonnet 4.6 -0.9
判断力: 43.2 → 42.3
豆包 Pro -0.8
判断力: 48.8 → 48.0

诚信评级变化 integrity_label 转变

DeepSeek R1 诚信恢复
⚠ warn✔ pass

运行信号变化 稳定性 / 可用性 / 性价比

GPT-4o +11.0
可用性: 84.0 → 95.0
GPT-o3 +8.0
可用性: 89.0 → 97.0
GPT-4o +5.4
性价比: 24.5 → 29.9
GPT-4o +4.7
稳定性: 26.2 → 30.9
Grok 3 +4.6
稳定性: 30.4 → 35.0
Claude Sonnet 4.6 +3.3
稳定性: 33.3 → 36.6
DeepSeek R1 +3.3
稳定性: 31.0 → 34.3
文心一言 4.0 +2.3
稳定性: 28.1 → 30.4
Claude Opus 4.6 +2.0
稳定性: 34.8 → 36.8
Gemini 2.5 Pro +1.1
稳定性: 35.6 → 36.7
GPT-o3 +1.1
稳定性: 31.2 → 32.3
DeepSeek V3 +1.1
稳定性: 31.3 → 32.4
文心一言 4.0 +1.0
可用性: 99.0 → 100.0
GPT-o3 +0.8
性价比: 7.2 → 8.0
Grok 3 +0.7
性价比: 22.9 → 23.6
DeepSeek R1 +0.6
性价比: 91.6 → 92.2
Qwen Max +0.6
性价比: 46.3 → 46.9
文心一言 4.0 +0.5
性价比: 97.9 → 98.4
Grok 3 -2.0
可用性: 100.0 → 98.0
Qwen Max -0.8
稳定性: 30.4 → 29.6

查看旧版维度变化(v5 向后兼容数据)
10 上升
1 下降
0 稳定
11 模型

本周上升

本周下降