基准: Run #61 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-06 04:18 SGT
当前: Run #69 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-13 04:19 SGT
主变化 综合实力 core_overall
GPT-4o
+10.3
56.4 → 66.7
GPT-o3
+5.7
65.4 → 71.1
文心一言 4.0
+2.8
69.3 → 72.1
Claude Opus 4.6
+0.6
74.4 → 74.9
Gemini 2.5 Pro
-4.0
80.7 → 76.8
豆包 Pro
-2.5
81.7 → 79.3
Qwen Max
-2.0
73.5 → 71.5
DeepSeek V3
-1.6
77.1 → 75.6
DeepSeek R1
-1.3
79.1 → 77.8
Claude Sonnet 4.6
-1.0
76.3 → 75.3
1 个模型表现稳定
Grok 3 (76.3)
侧榜变化 判断力 / 表达力
Claude Opus 4.6
+5.0
表达力: 35.0 → 40.0
Claude Sonnet 4.6
+5.0
表达力: 35.0 → 40.0
Grok 3
+5.0
表达力: 35.0 → 40.0
GPT-o3
+5.0
表达力: 30.0 → 35.0
GPT-4o
+5.0
表达力: 30.0 → 35.0
Gemini 2.5 Pro
+5.0
表达力: 35.0 → 40.0
Qwen Max
+5.0
表达力: 30.0 → 35.0
文心一言 4.0
+5.0
表达力: 30.0 → 35.0
豆包 Pro
+5.0
表达力: 35.0 → 40.0
DeepSeek V3
+5.0
表达力: 35.0 → 40.0
GPT-4o
+4.5
判断力: 37.8 → 42.3
GPT-o3
+4.1
判断力: 38.2 → 42.3
文心一言 4.0
+2.8
判断力: 37.2 → 40.0
DeepSeek R1
+2.4
判断力: 41.2 → 43.6
DeepSeek V3
+2.0
判断力: 40.3 → 42.3
Grok 3
+1.2
判断力: 44.0 → 45.2
Gemini 2.5 Pro
+1.1
判断力: 41.2 → 42.3
Claude Opus 4.6
-3.6
判断力: 48.8 → 45.2
Qwen Max
-2.0
判断力: 40.3 → 38.3
Claude Sonnet 4.6
-0.9
判断力: 43.2 → 42.3
豆包 Pro
-0.8
判断力: 48.8 → 48.0
诚信评级变化 integrity_label 转变
DeepSeek R1
诚信恢复
⚠ warn →
✔ pass
运行信号变化 稳定性 / 可用性 / 性价比
GPT-4o
+11.0
可用性: 84.0 → 95.0
GPT-o3
+8.0
可用性: 89.0 → 97.0
GPT-4o
+5.4
性价比: 24.5 → 29.9
GPT-4o
+4.7
稳定性: 26.2 → 30.9
Grok 3
+4.6
稳定性: 30.4 → 35.0
Claude Sonnet 4.6
+3.3
稳定性: 33.3 → 36.6
DeepSeek R1
+3.3
稳定性: 31.0 → 34.3
文心一言 4.0
+2.3
稳定性: 28.1 → 30.4
Claude Opus 4.6
+2.0
稳定性: 34.8 → 36.8
Gemini 2.5 Pro
+1.1
稳定性: 35.6 → 36.7
GPT-o3
+1.1
稳定性: 31.2 → 32.3
DeepSeek V3
+1.1
稳定性: 31.3 → 32.4
文心一言 4.0
+1.0
可用性: 99.0 → 100.0
GPT-o3
+0.8
性价比: 7.2 → 8.0
Grok 3
+0.7
性价比: 22.9 → 23.6
DeepSeek R1
+0.6
性价比: 91.6 → 92.2
Qwen Max
+0.6
性价比: 46.3 → 46.9
文心一言 4.0
+0.5
性价比: 97.9 → 98.4
Grok 3
-2.0
可用性: 100.0 → 98.0
Qwen Max
-0.8
稳定性: 30.4 → 29.6
查看旧版维度变化(v5 向后兼容数据)
10
上升
1
下降
0
稳定
11
模型
本周上升
DeepSeek R1
+47.4
DeepSeek R1:代码执行 +47.4
代码执行 (v5)
DeepSeek V3
+42.6
DeepSeek V3:代码执行 +42.6
代码执行 (v5)
豆包 Pro
+42.4
豆包 Pro:代码执行 +42.4
代码执行 (v5)
Grok 3
+42.4
Grok 3:代码执行 +42.4
代码执行 (v5)
Claude Opus 4.6
+42
Claude Opus 4.6:代码执行 +42
代码执行 (v5)
文心一言 4.0
+41.4
文心一言 4.0:代码执行 +41.4
代码执行 (v5)
Qwen Max
+38.6
Qwen Max:代码执行 +38.6
代码执行 (v5)
Claude Sonnet 4.6
+38.3
Claude Sonnet 4.6:代码执行 +38.3
代码执行 (v5)
Gemini 2.5 Pro
+33.8
Gemini 2.5 Pro:代码执行 +33.8
代码执行 (v5)
GPT-4o
+29.2
GPT-4o:代码执行 +29.2
代码执行 (v5)