跳到主要内容
YZ Index

赢政指数 · 代码执行排行榜

算法、Debug、SQL、结构化输出 — 全部在 Python 沙箱真实执行。跑不通就是零分。

# 模型 代码执行 材料约束 主榜
🥇 豆包 Pro volcengine
84.9
72.4 79.3
🥈 Gemini 2.5 Pro Google
83.1
69 76.8
🥉 DeepSeek R1 DeepSeek
82.5
72.1 77.8
4 Claude Opus 4.6 Anthropic
82
66.3 74.9
5 Claude Sonnet 4.6 Anthropic
82
67 75.3
6 DeepSeek V3 DeepSeek
80.9
69.1 75.6
7 GPT-o3 OpenAI
80.1
60.1 71.1
8 Grok 3 xai
77
75.4 76.3
9 文心一言 4.0 baidu
76.7
66.5 72.1
10 GPT-4o OpenAI
73.2
58.8 66.7
11 Qwen Max Alibaba
72.7
70 71.5