YZ Index
赢政指数 · 可用性排行榜
API调不通、超时、报错、拒绝服务——全算失败。再聪明用不了等于零。
排名基于最近 5 次评测滚动均值,非单次成绩
| # | 模型 | 可用性 | 稳定性 | 代码执行 | 主榜分 |
|---|---|---|---|---|---|
| 🥇 | Claude Opus 4.6 Anthropic | 44.7 | 86.6 | 72 | |
| 🥈 | Claude Sonnet 4.6 Anthropic | 45.2 | 87 | 74.3 | |
| 🥉 | DeepSeek R1 DeepSeek | 41.4 | 87.6 | 82.4 | |
| 4 | DeepSeek V3 DeepSeek | 41.1 | 86.1 | 82.4 | |
| 5 | 豆包 Pro volcengine | 46.1 | 90.2 | 84.9 | |
| 6 | Qwen Max Alibaba | 40.7 | 77.6 | 74.6 | |
| 7 | 文心一言 4.0 baidu | 本期 100 | 39.6 | 81.2 | 80.7 |
| 8 | Gemini 2.5 Pro Google | 本期 100 | 44.3 | 86.8 | 78 |
| 9 | Grok 3 xai | 本期 98 | 42.5 | 83 | 74.1 |
| 10 | GPT-o3 OpenAI | 本期 97 | 40.8 | 79.7 | 68.3 |
| 11 | GPT-4o OpenAI | 本期 95 | 38.7 | 76.3 | 66.7 |