基准: Run #174 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-14 08:37 SGT
当前: Run #175 · 公式 v7 · 判分 v6.3 · 题库 v7 · 2026-06-14 10:30 SGT
主变化 综合实力 core_overall
Gemini 3.1 Pro
+4.8
69.1 → 73.9
Claude Sonnet 4.6
+3.9
76.8 → 80.7
Claude Opus 4.7
+2.1
86.0 → 88.1
DeepSeek V4 Pro
+1.0
83.0 → 84.0
Grok 4
+0.8
86.2 → 87.0
Qwen3 Max
+0.7
77.5 → 78.2
GPT-o3
+0.5
81.4 → 81.9
Gemini 2.5 Pro
-5.8
70.6 → 64.8
文心一言 4.5
-3.2
62.3 → 59.1
GPT-5.5
-0.5
86.6 → 86.0
1 个模型表现稳定
豆包 Pro (79.1)
侧榜变化 判断力 / 表达力
GPT-5.5
+7.7
判断力: 76.1 → 83.8
文心一言 4.5
+7.5
判断力: 60.1 → 67.6
DeepSeek V4 Pro
+6.5
表达力: 85.8 → 92.3
Qwen3 Max
+6.2
判断力: 74.7 → 80.9
Gemini 3.1 Pro
+5.0
表达力: 88.9 → 93.9
Grok 4
+3.4
判断力: 72.5 → 75.9
GPT-o3
+3.1
表达力: 89.0 → 92.1
Claude Sonnet 4.6
+2.4
判断力: 78.3 → 80.7
DeepSeek V4 Pro
+2.4
判断力: 74.2 → 76.6
GPT-5.5
+2.2
表达力: 91.3 → 93.5
豆包 Pro
+1.8
判断力: 77.3 → 79.1
GPT-o3
+1.5
判断力: 72.5 → 74.0
Gemini 2.5 Pro
+0.9
判断力: 78.7 → 79.6
Claude Opus 4.7
-9.3
判断力: 87.0 → 77.7
Qwen3 Max
-8.4
表达力: 81.9 → 73.5
Claude Sonnet 4.6
-6.2
表达力: 91.2 → 85.0
文心一言 4.5
-5.9
表达力: 74.8 → 68.9
豆包 Pro
-2.2
表达力: 92.6 → 90.4
Gemini 3.1 Pro
-2.1
判断力: 83.0 → 80.9
Grok 4
-1.6
表达力: 92.0 → 90.4
Claude Opus 4.7
-0.6
表达力: 92.0 → 91.4
诚信评级变化 integrity_label 转变
文心一言 4.5
诚信警告
✔ pass →
⚠ warn
运行信号变化 稳定性 / 可用性 / 性价比
Claude Sonnet 4.6
+3.2
稳定性: 39.9 → 43.1
DeepSeek V4 Pro
+1.3
稳定性: 54.0 → 55.3
豆包 Pro
+1.1
可用性: 95.9 → 97.0
GPT-5.5
+1.0
可用性: 98.0 → 99.0
Gemini 3.1 Pro
+0.7
性价比: 24.8 → 25.5
Claude Sonnet 4.6
+0.5
性价比: 25.7 → 26.2
Claude Opus 4.7
-14.1
稳定性: 62.8 → 48.7
GPT-5.5
-11.1
稳定性: 66.7 → 55.6
Gemini 2.5 Pro
-10.5
稳定性: 54.3 → 43.8
Grok 4
-8.4
稳定性: 61.0 → 52.6
豆包 Pro
-7.0
稳定性: 59.0 → 52.0
GPT-o3
-5.0
稳定性: 55.4 → 50.4
Qwen3 Max
-4.2
稳定性: 48.3 → 44.1
文心一言 4.5
-3.1
稳定性: 33.1 → 30.0
Gemini 2.5 Pro
-2.4
性价比: 37.8 → 35.4
Gemini 2.5 Pro
-1.9
可用性: 92.9 → 91.0
Gemini 3.1 Pro
-1.4
稳定性: 36.2 → 34.8
GPT-o3
-1.0
可用性: 99.0 → 98.0
文心一言 4.5
-1.0
可用性: 98.0 → 97.0
文心一言 4.5
-0.6
性价比: 98.0 → 97.4
Qwen3 Max
-0.6
性价比: 53.2 → 52.6
GPT-5.5
-0.4
性价比: 20.4 → 20.0
Grok 4
-0.4
性价比: 27.5 → 27.1