YZ Index

赢政指数 · 可用性排行榜

API调不通、超时、报错、拒绝服务——全算失败。再聪明用不了等于零。

主榜代码执行排行榜材料约束排行榜工程判断排行榜任务表达排行榜性价比排行榜升降榜

排名基于最近 5 次评测滚动均值，非单次成绩

#	模型	可用性	稳定性	代码执行	主榜分
🥇	Claude Opus 4.7 claude	100	38.6	84.6	68.5
🥈	Claude Sonnet 4.6 claude	100	31.6	80.9	68.3
🥉	Gemini 3.1 Pro gemini	100	23.8	57.1	61.2
4	GPT-5.5 gpt	100	38.5	79.2	69.7
5	Grok 4 grok	100	32.1	76.2	67.2
6	Qwen3 Max qwen	100	23.6	70.7	61.1
7	GPT-o3 gpt	98 本期 97	36.5	73.2	65.7
8	豆包 Pro doubao	97.8 本期 97	38.3	71.4	77.8
9	DeepSeek V4 Pro DeepSeek	96.7 本期 97	44.7	71.8	72.6
10	Gemini 2.5 Pro gemini	92.9 本期 92	36.8	61.4	65.2
11	GLM-4.6 zhipu	67.4 本期 60.8	33.7	42.2	50.1