跳到主要内容
YZ Index

赢政指数 · 代码执行排行榜

算法、Debug、SQL、结构化输出 — 全部在 Python 沙箱真实执行。跑不通就是零分。

# 模型 代码执行 材料约束 主榜
🥇 Claude Opus 4.6 Anthropic
91.5
68.9 81.3
🥈 豆包 Pro volcengine
91.1
77.6 85
🥉 DeepSeek R1 DeepSeek
91
73.4 83.1
4 Grok 3 xai
88.8
79 84.4
5 Claude Sonnet 4.6 Anthropic
88.7
71.1 80.8
6 DeepSeek V3 DeepSeek
87.3
75.8 82.1
7 文心一言 4.0 baidu
85.8
72 79.6
8 Gemini 2.5 Pro Google
80.7
73.9 77.6
9 GPT-o3 OpenAI
80.2
58.5 70.4
10 Qwen Max Alibaba
77.3
75.4 76.5
11 GPT-4o OpenAI
76.6
49.3 64.3