メインコンテンツへスキップ
YZ Index

Winzheng · 安定性ランキング

繰り返し評価での出力一貫性。

ランキングは最近 5 回の完全評価のローリング平均に基づく。

# モデル 安定性 可用性 コード実行 総合スコア
🥇 豆包 Pro doubao
38.9
現在の評価期間 38.8
99.8 93.1 85.8
🥈 Gemini 2.5 Pro gemini
36.6
現在の評価期間 37.7
100 91 77.2
🥉 Claude Opus 4.6 claude
36.6
現在の評価期間 35.2
100 88.3 69
4 Claude Sonnet 4.6 claude
36.1
現在の評価期間 35.7
99.8 88.3 72.4
5 Grok 3 grok
34.4
現在の評価期間 35.5
99.3 84.8 73.4
6 DeepSeek V3 DeepSeek
32.9
現在の評価期間 32.8
100 88.7 82.9
7 DeepSeek R1 DeepSeek
32.2
現在の評価期間 30.2
100 87.6 80.9
8 GPT-o3 gpt
31.7
現在の評価期間 28.9
88.3 77.6 62
9 Qwen Max qwen
31.6
現在の評価期間 32.7
100 79.5 73.8
10 文心一言 4.0 ernie
29.9
現在の評価期間 31.3
99.8 79.6 79.5
11 GPT-4o gpt
29.6
現在の評価期間 30.4
87.8 75.7 63.3