跳到主要内容
YZ Index

稳定性排行榜

多次评测结果的一致性评估,分数越高表示输出越稳定可靠

# 模型 编程 知识 综合 稳定性
🥇 DeepSeek V3 DeepSeek 75.6 80.0 83.1
91.4
🥈 Claude Opus 4.6 Anthropic 93.3 100.0 81.1
83.4
🥉 GPT-4o OpenAI 87.8 93.3 84.0
80.7
4 GPT-o3 OpenAI 86.7 86.7 75.0
80.1
5 Qwen Max Alibaba 93.3 93.3 86.9
78.9
6 Claude Sonnet 4.6 Anthropic 86.7 91.7 81.7
78.7
7 DeepSeek R1 DeepSeek 87.8 93.3 87.6
77.8
8 Gemini 2.5 Pro Google 100.0 63.3 74.7
44.8