基准: Run #175 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-14 10:30 SGT
当前: Run #177 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-15 04:54 SGT
主变化 综合实力 core_overall
Gemini 2.5 Pro
+6.2
64.8 → 71.0
Gemini 3.1 Pro
+0.7
73.9 → 74.6
Claude Opus 4.7
-4.8
88.1 → 83.3
Grok 4
-4.6
87.0 → 82.4
文心一言 4.5
-3.6
59.1 → 55.5
DeepSeek V4 Pro
-2.9
84.0 → 81.1
GPT-5.5
-2.9
86.0 → 83.2
Claude Sonnet 4.6
-2.8
80.7 → 77.8
GPT-o3
-2.2
81.9 → 79.8
豆包 Pro
-0.8
79.1 → 78.3
1 个模型表现稳定
Qwen3 Max (78.6)
侧榜变化 判断力 / 表达力
Qwen3 Max
+11.0
表达力: 73.5 → 84.5
文心一言 4.5
+8.2
表达力: 68.9 → 77.1
Claude Opus 4.7
+6.8
判断力: 77.7 → 84.5
Claude Sonnet 4.6
+5.9
表达力: 85.0 → 90.9
GPT-o3
+2.6
判断力: 74.0 → 76.6
Gemini 2.5 Pro
+2.5
表达力: 88.3 → 90.8
Claude Sonnet 4.6
+2.4
判断力: 80.7 → 83.1
DeepSeek V4 Pro
+2.4
判断力: 76.6 → 79.0
文心一言 4.5
-8.5
判断力: 67.6 → 59.1
Grok 4
-8.1
表达力: 90.4 → 82.3
GPT-5.5
-5.8
判断力: 83.8 → 78.0
Grok 4
-5.5
判断力: 75.9 → 70.4
Gemini 3.1 Pro
-5.4
表达力: 93.9 → 88.5
GPT-5.5
-4.0
表达力: 93.5 → 89.5
GPT-o3
-3.0
表达力: 92.1 → 89.1
DeepSeek V4 Pro
-2.5
表达力: 92.3 → 89.8
Claude Opus 4.7
-1.5
表达力: 91.4 → 89.9
Qwen3 Max
-1.2
判断力: 80.9 → 79.7
豆包 Pro
-0.6
表达力: 90.4 → 89.8
诚信评级变化 integrity_label 转变
文心一言 4.5
诚信恢复
⚠ warn →
✔ pass
运行信号变化 稳定性 / 可用性 / 性价比
Gemini 2.5 Pro
+13.7
稳定性: 43.8 → 57.5
Qwen3 Max
+5.3
稳定性: 44.1 → 49.4
Gemini 3.1 Pro
+3.6
稳定性: 34.8 → 38.4
豆包 Pro
+3.2
稳定性: 52.0 → 55.2
Claude Opus 4.7
+2.8
稳定性: 48.7 → 51.5
Gemini 2.5 Pro
+2.4
性价比: 35.4 → 37.8
Claude Sonnet 4.6
+2.2
稳定性: 43.1 → 45.3
GPT-5.5
+1.8
稳定性: 55.6 → 57.4
Qwen3 Max
+1.2
性价比: 52.6 → 53.8
Gemini 2.5 Pro
+0.9
可用性: 91.0 → 91.9
文心一言 4.5
+0.6
稳定性: 30.0 → 30.6
GPT-o3
+0.5
稳定性: 50.4 → 50.9
Grok 4
-5.9
稳定性: 52.6 → 46.7
DeepSeek V4 Pro
-5.6
稳定性: 55.3 → 49.7
GPT-5.5
-2.0
可用性: 99.0 → 97.0
Grok 4
-0.9
性价比: 27.1 → 26.2
DeepSeek V4 Pro
-0.6
性价比: 45.7 → 45.1
文心一言 4.5
-0.5
性价比: 97.4 → 96.9
GPT-5.5
-0.4
性价比: 20.0 → 19.6