跳到主要内容
YZ Index

最近两次评测对比

同日两次评测对比 · 非跨周变化

基准: Run #78 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-20 04:15 SGT 当前: Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT

主变化 综合实力 core_overall

Claude Sonnet 4.6 +7.3
76.8 → 84.1
Claude Opus 4.6 +3.9
79.6 → 83.4
GPT-o3 +3.7
58.9 → 62.5
Gemini 2.5 Pro +3.5
80.9 → 84.3
GPT-4o +2.4
62.9 → 65.4
豆包 Pro +1.4
85.1 → 86.4
DeepSeek R1 -5.6
81.4 → 75.9
文心一言 4.0 -3.0
77.9 → 74.9
2 个模型表现稳定
DeepSeek V3 (80.8) Qwen Max (77.9)

侧榜变化 判断力 / 表达力

Gemini 2.5 Pro +5.7
判断力: 41.5 → 47.2
DeepSeek V3 +2.8
判断力: 41.5 → 44.3
GPT-4o +2.5
判断力: 39.0 → 41.5
Claude Opus 4.6 -10.0
表达力: 50.0 → 40.0
Claude Sonnet 4.6 -5.0
表达力: 45.0 → 40.0
DeepSeek R1 -5.0
表达力: 45.0 → 40.0
DeepSeek V3 -5.0
表达力: 45.0 → 40.0
豆包 Pro -5.0
表达力: 45.0 → 40.0
Gemini 2.5 Pro -5.0
表达力: 45.0 → 40.0
DeepSeek R1 -2.8
判断力: 41.5 → 38.7
Claude Sonnet 4.6 -2.5
判断力: 46.3 → 43.8
Qwen Max -0.8
判断力: 41.5 → 40.7
文心一言 4.0 -0.6
判断力: 40.3 → 39.7

诚信评级变化 integrity_label 转变

DeepSeek R1 诚信警告
✔ pass⚠ warn
DeepSeek V3 诚信警告
✔ pass⚠ warn

运行信号变化 稳定性 / 可用性 / 性价比

GPT-o3 +1.3
可用性: 85.7 → 87.0
GPT-4o +1.2
可用性: 89.8 → 91.0
豆包 Pro +1.0
可用性: 99.0 → 100.0
Claude Sonnet 4.6 +0.9
性价比: 24.2 → 25.1
GPT-o3 -5.5
稳定性: 34.4 → 28.9
Claude Opus 4.6 -4.3
稳定性: 39.5 → 35.2
DeepSeek R1 -4.1
稳定性: 34.3 → 30.2
DeepSeek R1 -3.1
性价比: 93.4 → 90.3
DeepSeek V3 -2.9
稳定性: 35.7 → 32.8
Claude Sonnet 4.6 -2.8
稳定性: 38.5 → 35.7
GPT-4o -2.5
稳定性: 32.9 → 30.4
Qwen Max -2.3
性价比: 50.9 → 48.6
豆包 Pro -1.7
稳定性: 40.5 → 38.8
Claude Sonnet 4.6 -1.0
可用性: 100.0 → 99.0
Qwen Max -0.8
稳定性: 33.5 → 32.7
豆包 Pro -0.7
性价比: 94.0 → 93.3
文心一言 4.0 -0.4
性价比: 99.0 → 98.6

查看旧版维度变化(v5 向后兼容数据)
8 上升
3 下降
0 稳定
11 模型

本周上升

本周下降