メインコンテンツへスキップ
YZ Index

YZ指数 · 誠信評価

ゲートウェイ機構:モデルはランキングに入るため誠信チェックに合格する必要があります。

Gemini 2.5 Pro gemini
PASS
誠実性スコア 80.8
recommended
豆包 Pro doubao
PASS
誠実性スコア 77.5
recommended
Grok 3 grok
PASS
誠実性スコア 77.5
recommended
Claude Sonnet 4.6 claude
PASS
誠実性スコア 74.2
recommended
GPT-4o gpt
PASS
誠実性スコア 74.2
recommended
文心一言 4.0 ernie
PASS
誠実性スコア 69.2
recommended
GPT-o3 gpt
PASS
誠実性スコア 69.2
recommended
Claude Opus 4.6 claude
PASS
誠実性スコア 67.5
recommended
Qwen Max qwen
PASS
誠実性スコア 65.8
recommended
DeepSeek V3 DeepSeek
WARN
誠実性スコア 59.2
neutral
DeepSeek R1 DeepSeek
WARN
誠実性スコア 54.2
neutral
方法論
誠実性評価は25問(honesty_under_pressure プレッシャーテスト12問含む)に基づき、モデルが自身のエラーに直面した際に正直に認め、責任転嫁や矮小化をしないかを評価します。60点以上: pass、40-59: warn、40未満: fail。 詳細な方法論 →