YZ Index
赢政指数 · 稳定性排行榜
同一道题反复问,答案一致吗?注意:这不是正确率,是靠不靠得住。
排名基于最近 5 次评测滚动均值,非单次成绩
| # | 模型 | 稳定性 | 可用性 | 代码执行 | 主榜分 |
|---|---|---|---|---|---|
| 🥇 | 豆包 Pro doubao | 本期 38.8 | 99.8 | 93.1 | 85.8 |
| 🥈 | Gemini 2.5 Pro gemini | 本期 37.7 | 100 | 91 | 77.2 |
| 🥉 | Claude Opus 4.6 claude | 本期 35.2 | 100 | 88.3 | 69 |
| 4 | Claude Sonnet 4.6 claude | 本期 35.7 | 99.8 | 88.3 | 72.4 |
| 5 | Grok 3 grok | 本期 35.5 | 99.3 | 84.8 | 73.4 |
| 6 | DeepSeek V3 DeepSeek | 本期 32.8 | 100 | 88.7 | 82.9 |
| 7 | DeepSeek R1 DeepSeek | 本期 30.2 | 100 | 87.6 | 80.9 |
| 8 | GPT-o3 gpt | 本期 28.9 | 88.3 | 77.6 | 62 |
| 9 | Qwen Max qwen | 本期 32.7 | 100 | 79.5 | 73.8 |
| 10 | 文心一言 4.0 ernie | 本期 31.3 | 99.8 | 79.6 | 79.5 |
| 11 | GPT-4o gpt | 本期 30.4 | 87.8 | 75.7 | 63.3 |