YZ Index
赢政指数 · 代码执行排行榜
算法、Debug、SQL、结构化输出 — 全部在 Python 沙箱真实执行。跑不通就是零分。
| # | 模型 | 代码执行 | 材料约束 | 主榜 |
|---|---|---|---|---|
| 🥇 | 豆包 Pro volcengine | 72.4 | 79.3 | |
| 🥈 | Gemini 2.5 Pro Google | 69 | 76.8 | |
| 🥉 | DeepSeek R1 DeepSeek | 72.1 | 77.8 | |
| 4 | Claude Opus 4.6 Anthropic | 66.3 | 74.9 | |
| 5 | Claude Sonnet 4.6 Anthropic | 67 | 75.3 | |
| 6 | DeepSeek V3 DeepSeek | 69.1 | 75.6 | |
| 7 | GPT-o3 OpenAI | 60.1 | 71.1 | |
| 8 | Grok 3 xai | 75.4 | 76.3 | |
| 9 | 文心一言 4.0 baidu | 66.5 | 72.1 | |
| 10 | GPT-4o OpenAI | 58.8 | 66.7 | |
| 11 | Qwen Max Alibaba | 70 | 71.5 |