YZ Index
赢政指数 · 代码执行排行榜
算法、Debug、SQL、结构化输出 — 全部在 Python 沙箱真实执行。跑不通就是零分。
| # | 模型 | 代码执行 | 材料约束 | 主榜 |
|---|---|---|---|---|
| 🥇 | DeepSeek V4 Pro DeepSeek | 95.4 | 92.3 | |
| 🥈 | GPT-o3 gpt | 93.6 | 90.5 | |
| 🥉 | GPT-5.5 gpt | 91.2 | 88.3 | |
| 4 | Claude Opus 4.7 claude | 96.5 | 90.6 | |
| 5 | Qwen3 Max qwen | 90.7 | 87.8 | |
| 6 | Grok 4 grok | 95.6 | 89.9 | |
| 7 | 豆包 Pro doubao | 92.4 | 88.1 | |
| 8 | Claude Sonnet 4.6 claude | 92.9 | 81.9 | |
| 9 | Gemini 2.5 Pro gemini | 93.7 | 82.2 | |
| 10 | 文心一言 4.5 ernie | 93.4 | 81.3 | |
| 11 | Gemini 3.1 Pro gemini | 93.3 | 77.2 |