YZ Index

評価データ

現在表示中：Run #87 | 2026-04-27 | 212問の題庫 | 公式 v7 | 判定セット v6

Run切替モデル

データ公開について：ベンチマーク汚染と過学習を防ぐため、問題文と期待回答は非公開です。本ページではモデルの回答、得点、採点方式などの透明性データを表示します。詳しい方法論は方法論ページ。

モデル	コード実行	材料制約	エンジニアリング判断	タスク表現	誠実性	総合分	コスパ	安定性	可用性	タスクごと
Grok 3 grok	88.90	84.40	43.50	40.00	77.50 pass	86.88	25.8	35.5	99.0

豆包 Pro doubao	92.20	79.40	46.30	40.00	77.50 pass	86.44	93.3	38.8	100.0

Gemini 2.5 Pro gemini	89.40	78.10	47.20	40.00	80.80 pass	84.32	39.3	37.7	100.0

Claude Sonnet 4.6 claude	86.50	81.10	43.80	40.00	74.20 pass	84.07	25.1	35.7	99.0

Claude Opus 4.6 claude	86.50	79.70	46.30	40.00	67.50 pass	83.44	5.1	35.2	100.0

DeepSeek V3 deepseek	83.20	77.80	44.30	40.00	59.20 warn	80.77	99.7	32.8	100.0

Qwen Max qwen	78.40	77.30	40.70	40.00	65.80 pass	77.91	48.6	32.7	100.0

DeepSeek R1 deepseek	78.90	72.20	38.70	40.00	54.20 warn	75.89	90.3	30.2	100.0

文心一言 4.0 ernie	77.00	72.30	39.70	40.00	69.20 pass	74.89	98.6	31.3	100.0

GPT-4o gpt	71.70	57.60	41.50	40.00	74.20 pass	65.36	29.1	30.4	91.0

GPT-o3 gpt	73.40	49.20	38.70	40.00	69.20 pass	62.51	7.0	28.9	87.0

APIアクセス：評価データにプログラムからアクセスするには、当社の API。