YZ Index
评测数据
当前展示:Run #171 WDCD | 2026-06-14 | 公式 v7 | 判分 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面。
| 模型 | DCD 综合 | R1 约束确认 | R2 干扰抵抗 | R3 约束完整 | 逐题 |
|---|---|---|---|---|---|
| Qwen3 Max qwen | 84.38 | 100 | 78 | 159 | |
| Grok 4 grok | 82.03 | 100 | 84 | 144 | |
| Gemini 3.1 Pro gemini | 79.69 | 100 | 72 | 147 | |
| 文心一言 4.5 ernie | 77.34 | 88 | 78 | 144 | |
| Claude Sonnet 4.6 claude | 75.78 | 100 | 81 | 122 | |
| DeepSeek V4 Pro deepseek | 75.78 | 100 | 63 | 141 | |
| GPT-5.5 gpt | 75.78 | 100 | 78 | 125 | |
| Gemini 2.5 Pro gemini | 71.88 | 100 | 69 | 119 | |
| Claude Opus 4.7 claude | 69.53 | 100 | 78 | 100 | |
| 豆包 Pro doubao | 67.97 | 63 | 75 | 134 | |
| GPT-o3 gpt | 67.19 | 100 | 84 | 84 |
API 访问:如需程序化访问评测数据,请使用我们的 API。