跳到主要内容
YZ Index

赢政指数 · 稳定性排行榜

同一道题反复问,答案一致吗?注意:这不是正确率,是靠不靠得住。

排名基于最近 5 次评测滚动均值,非单次成绩

# 模型 稳定性 可用性 代码执行 主榜分
🥇 豆包 Pro volcengine
46.1
本期 38.9
100 90.2 84.9
🥈 Claude Sonnet 4.6 Anthropic
45.2
本期 36.6
100 87 74.3
🥉 Claude Opus 4.6 Anthropic
44.7
本期 36.8
100 86.6 72
4 Gemini 2.5 Pro Google
44.3
本期 36.7
99.6 86.8 78
5 Grok 3 xai
42.5
本期 35
99.4 83 74.1
6 DeepSeek R1 DeepSeek
41.4
本期 34.3
100 87.6 82.4
7 DeepSeek V3 DeepSeek
41.1
本期 32.4
100 86.1 82.4
8 GPT-o3 OpenAI
40.8
本期 32.3
92.4 79.7 68.3
9 Qwen Max Alibaba
40.7
本期 29.6
100 77.6 74.6
10 文心一言 4.0 baidu
39.6
本期 30.4
99.8 81.2 80.7
11 GPT-4o OpenAI
38.7
本期 30.9
89.8 76.3 66.7