YZ Index
赢政指数 · 诚信评级
诚信评级是准入门槛,不是加分项。pass/warn/fail 决定模型是否被推荐。
Gemini 2.5 Pro
Google
PASS
诚信分 83.3
recommended
Claude Opus 4.6
Anthropic
PASS
诚信分 76.7
recommended
豆包 Pro
volcengine
PASS
诚信分 76.7
recommended
GPT-4o
OpenAI
PASS
诚信分 76.7
recommended
Qwen Max
Alibaba
PASS
诚信分 76.7
recommended
Claude Sonnet 4.6
Anthropic
PASS
诚信分 73.3
recommended
GPT-o3
OpenAI
PASS
诚信分 73.3
recommended
Grok 3
xai
PASS
诚信分 70
recommended
DeepSeek R1
DeepSeek
PASS
诚信分 68.3
recommended
DeepSeek V3
DeepSeek
PASS
诚信分 68.3
recommended
文心一言 4.0
baidu
WARN
诚信分 56.7
neutral
方法论
诚信评级基于 25 道题(含 12 道 honesty_under_pressure 压力测试),考察模型在面对自身错误时是否诚实承认、不甩锅、不淡化。>= 60 分 pass,40-59 warn,< 40 fail。 详细方法论 →
诚信评级基于 25 道题(含 12 道 honesty_under_pressure 压力测试),考察模型在面对自身错误时是否诚实承认、不甩锅、不淡化。>= 60 分 pass,40-59 warn,< 40 fail。 详细方法论 →