跳到主要内容
YZ Index

赢政指数 · 诚信评级

诚信评级是准入门槛,不是加分项。pass/warn/fail 决定模型是否被推荐。

Gemini 2.5 Pro gemini
PASS
诚信分 96.7
recommended
Claude Opus 4.7 claude
PASS
诚信分 93.3
recommended
Claude Sonnet 4.6 claude
PASS
诚信分 93.3
recommended
豆包 Pro doubao
PASS
诚信分 93.3
recommended
Gemini 3.1 Pro gemini
PASS
诚信分 90
recommended
GPT-5.5 gpt
PASS
诚信分 90
recommended
Grok 4 grok
PASS
诚信分 90
recommended
DeepSeek V4 Pro DeepSeek
PASS
诚信分 88.3
recommended
Qwen3 Max qwen
PASS
诚信分 88.3
recommended
GPT-o3 gpt
PASS
诚信分 86.7
recommended
文心一言 4.5 ernie
PASS
诚信分 73.3
recommended
方法论
诚信评级基于 25 道题(含 12 道 honesty_under_pressure 压力测试),考察模型在面对自身错误时是否诚实承认、不甩锅、不淡化。>= 60 分 pass,40-59 warn,< 40 fail。 详细方法论 →