跳到主要内容
YZ Index

赢政指数 · 稳定性排行榜

同一道题反复问,答案一致吗?注意:这不是正确率,是靠不靠得住。

排名基于最近 5 次评测滚动均值,非单次成绩

# 模型 稳定性 可用性 代码执行 主榜分
🥇 豆包 Pro doubao
46
本期 71.2
100 92.2 86.9
🥈 Claude Opus 4.7 claude
44.7
本期 67.7
99.8 89.2 72.8
🥉 Claude Sonnet 4.6 claude
43.2
本期 62.7
100 88.5 75.9
4 Gemini 3.1 Pro gemini
42.2
本期 63.2
95 82.2 71
5 Gemini 2.5 Pro gemini
41.3
本期 66
94.6 80.4 73.5
6 Grok 4 grok
40.6
本期 68.6
92.4 84.9 70.4
7 DeepSeek V4 Pro DeepSeek
39.7
本期 59.1
100 90.2 76.2
8 GPT-o3 gpt
39.4
本期 58
100 84.9 71.1
9 Qwen3 Max qwen
39.2
本期 59.8
100 87.9 77.4
10 GPT-5.5 gpt
38.5
本期 51.8
100 84.6 71.9
11 文心一言 4.5 ernie
33.5
本期 44.2
99.4 76.1 75.5