跳到主要内容
YZ Index

赢政指数 · 代码执行排行榜

算法、Debug、SQL、结构化输出 — 全部在 Python 沙箱真实执行。跑不通就是零分。

# 模型 代码执行 材料约束 主榜
🥇 DeepSeek V4 Pro DeepSeek
89.8
95.4 92.3
🥈 GPT-o3 gpt
87.9
93.6 90.5
🥉 GPT-5.5 gpt
86
91.2 88.3
4 Claude Opus 4.7 claude
85.7
96.5 90.6
5 Qwen3 Max qwen
85.5
90.7 87.8
6 Grok 4 grok
85.2
95.6 89.9
7 豆包 Pro doubao
84.6
92.4 88.1
8 Claude Sonnet 4.6 claude
72.8
92.9 81.9
9 Gemini 2.5 Pro gemini
72.7
93.7 82.2
10 文心一言 4.5 ernie
71.4
93.4 81.3
11 Gemini 3.1 Pro gemini
64.1
93.3 77.2