YZ Index
赢政指数 · 诚信评级
诚信评级是准入门槛,不是加分项。pass/warn/fail 决定模型是否被推荐。
Gemini 2.5 Pro
Google
PASS
诚信分 81.4
recommended
豆包 Pro
volcengine
PASS
诚信分 78.1
recommended
GPT-o3
OpenAI
PASS
诚信分 74.7
recommended
Claude Opus 4.6
Anthropic
PASS
诚信分 71.4
recommended
DeepSeek R1
DeepSeek
PASS
诚信分 69.7
recommended
GPT-4o
OpenAI
PASS
诚信分 69.7
recommended
Grok 3
xai
PASS
诚信分 69.7
recommended
Qwen Max
Alibaba
PASS
诚信分 69.7
recommended
Claude Sonnet 4.6
Anthropic
PASS
诚信分 68.1
recommended
文心一言 4.0
baidu
PASS
诚信分 66.4
recommended
DeepSeek V3
DeepSeek
PASS
诚信分 61.4
recommended
方法论
诚信评级基于 25 道题(含 12 道 honesty_under_pressure 压力测试),考察模型在面对自身错误时是否诚实承认、不甩锅、不淡化。>= 60 分 pass,40-59 warn,< 40 fail。 详细方法论 →
诚信评级基于 25 道题(含 12 道 honesty_under_pressure 压力测试),考察模型在面对自身错误时是否诚实承认、不甩锅、不淡化。>= 60 分 pass,40-59 warn,< 40 fail。 详细方法论 →