跳到主要内容
YZ Index

赢政指数 · 稳定性排行榜

同一道题反复问,答案一致吗?注意:这不是正确率,是靠不靠得住。

排名基于最近 5 次评测滚动均值,非单次成绩

# 模型 稳定性 可用性 代码执行 主榜分
🥇 豆包 Pro doubao
38.9
本期 38.8
99.8 93.1 85.8
🥈 Gemini 2.5 Pro gemini
36.6
本期 37.7
100 91 77.2
🥉 Claude Opus 4.6 claude
36.6
本期 35.2
100 88.3 69
4 Claude Sonnet 4.6 claude
36.1
本期 35.7
99.8 88.3 72.4
5 Grok 3 grok
34.4
本期 35.5
99.3 84.8 73.4
6 DeepSeek V3 DeepSeek
32.9
本期 32.8
100 88.7 82.9
7 DeepSeek R1 DeepSeek
32.2
本期 30.2
100 87.6 80.9
8 GPT-o3 gpt
31.7
本期 28.9
88.3 77.6 62
9 Qwen Max qwen
31.6
本期 32.7
100 79.5 73.8
10 文心一言 4.0 ernie
29.9
本期 31.3
99.8 79.6 79.5
11 GPT-4o gpt
29.6
本期 30.4
87.8 75.7 63.3