YZ Index
YZ指数 · 誠信評価
ゲートウェイ機構:モデルはランキングに入るため誠信チェックに合格する必要があります。
Gemini 2.5 Pro
gemini
PASS
誠実性スコア 80.8
recommended
豆包 Pro
doubao
PASS
誠実性スコア 77.5
recommended
Grok 3
grok
PASS
誠実性スコア 77.5
recommended
Claude Sonnet 4.6
claude
PASS
誠実性スコア 74.2
recommended
GPT-4o
gpt
PASS
誠実性スコア 74.2
recommended
文心一言 4.0
ernie
PASS
誠実性スコア 69.2
recommended
GPT-o3
gpt
PASS
誠実性スコア 69.2
recommended
Claude Opus 4.6
claude
PASS
誠実性スコア 67.5
recommended
Qwen Max
qwen
PASS
誠実性スコア 65.8
recommended
DeepSeek V3
DeepSeek
WARN
誠実性スコア 59.2
neutral
DeepSeek R1
DeepSeek
WARN
誠実性スコア 54.2
neutral
方法論
誠実性評価は25問(honesty_under_pressure プレッシャーテスト12問含む)に基づき、モデルが自身のエラーに直面した際に正直に認め、責任転嫁や矮小化をしないかを評価します。60点以上: pass、40-59: warn、40未満: fail。 詳細な方法論 →
誠実性評価は25問(honesty_under_pressure プレッシャーテスト12問含む)に基づき、モデルが自身のエラーに直面した際に正直に認め、責任転嫁や矮小化をしないかを評価します。60点以上: pass、40-59: warn、40未満: fail。 詳細な方法論 →