YZ Index

赢政指数 · 代码执行排行榜

算法、Debug、SQL、结构化输出 — 全部在 Python 沙箱真实执行。跑不通就是零分。

主榜代码执行排行榜材料约束排行榜工程判断排行榜任务表达排行榜性价比排行榜升降榜

#	模型	代码执行	材料约束	主榜
🥇	豆包 Pro doubao	92.2	79.4	86.4
🥈	Gemini 2.5 Pro gemini	89.4	78.1	84.3
🥉	Grok 3 grok	88.9	84.4	86.9
4	Claude Opus 4.6 claude	86.5	79.7	83.4
5	Claude Sonnet 4.6 claude	86.5	81.1	84.1
6	DeepSeek V3 DeepSeek	83.2	77.8	80.8
7	DeepSeek R1 DeepSeek	78.9	72.2	75.9
8	Qwen Max qwen	78.4	77.3	77.9
9	文心一言 4.0 ernie	77	72.3	74.9
10	GPT-o3 gpt	73.4	49.2	62.5
11	GPT-4o gpt	71.7	57.6	65.4