YZ Index
赢政指数 · 稳定性排行榜
同一道题反复问,答案一致吗?注意:这不是正确率,是靠不靠得住。
排名基于最近 5 次评测滚动均值,非单次成绩
| # | 模型 | 稳定性 | 可用性 | 代码执行 | 主榜分 |
|---|---|---|---|---|---|
| 🥇 | 豆包 Pro volcengine | 本期 38.9 | 100 | 90.2 | 84.9 |
| 🥈 | Claude Sonnet 4.6 Anthropic | 本期 36.6 | 100 | 87 | 74.3 |
| 🥉 | Claude Opus 4.6 Anthropic | 本期 36.8 | 100 | 86.6 | 72 |
| 4 | Gemini 2.5 Pro Google | 本期 36.7 | 99.6 | 86.8 | 78 |
| 5 | Grok 3 xai | 本期 35 | 99.4 | 83 | 74.1 |
| 6 | DeepSeek R1 DeepSeek | 本期 34.3 | 100 | 87.6 | 82.4 |
| 7 | DeepSeek V3 DeepSeek | 本期 32.4 | 100 | 86.1 | 82.4 |
| 8 | GPT-o3 OpenAI | 本期 32.3 | 92.4 | 79.7 | 68.3 |
| 9 | Qwen Max Alibaba | 本期 29.6 | 100 | 77.6 | 74.6 |
| 10 | 文心一言 4.0 baidu | 本期 30.4 | 99.8 | 81.2 | 80.7 |
| 11 | GPT-4o OpenAI | 本期 30.9 | 89.8 | 76.3 | 66.7 |