YZ Index
评测数据
当前展示:Run #213 | 2026-07-04 | 154 题库 | 公式 v7 | 判分 v6.4
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面。
| 模型 | 代码执行 | 材料约束 | 工程判断 | 任务表达 | 诚信 | 主榜分 | 性价比 | 稳定性 | 可用性 | 逐题 |
|---|---|---|---|---|---|---|---|---|---|---|
| Gemini 2.5 Pro gemini | 100.00 | 93.30 | 75.00 | 75.00 | 90.00 pass | 96.99 | 98.5 | 52.2 | 95.0 | |
| Grok 4 grok | 99.20 | 93.30 | 80.60 | 100.00 | 90.00 pass | 96.55 | 91.8 | 69.0 | 100.0 | |
| Claude Opus 4.7 claude | 97.00 | 93.30 | 100.00 | 88.90 | 100.00 pass | 95.34 | 31.1 | 77.7 | 100.0 | |
| 豆包 Pro doubao | 97.00 | 88.30 | 100.00 | 100.00 | 90.00 pass | 93.09 | 100.0 | 73.8 | 100.0 | |
| GPT-o3 gpt | 97.00 | 86.70 | 83.70 | 100.00 | 90.00 pass | 92.37 | 50.5 | 66.7 | 100.0 | |
| GPT-5.5 gpt | 97.00 | 73.50 | 100.00 | 100.00 | 90.00 pass | 86.43 | 79.3 | 65.0 | 100.0 | |
| Claude Sonnet 4.6 claude | 97.00 | 60.10 | 100.00 | 88.90 | 90.00 pass | 80.40 | 88.7 | 62.2 | 100.0 | |
| DeepSeek V4 Pro deepseek | 80.30 | 80.10 | 88.90 | 100.00 | 80.00 pass | 80.21 | 99.0 | 56.9 | 100.0 | |
| Qwen3 Max qwen | 69.50 | 75.10 | 66.70 | 75.00 | 90.00 pass | 72.02 | 98.7 | 29.8 | 100.0 | |
| Gemini 3.1 Pro gemini | 72.00 | 68.50 | 75.00 | 100.00 | 80.00 pass | 70.43 | 82.4 | 32.5 | 100.0 | |
| GLM-4.6 zhipu | 0.00 | 0.00 | 75.00 | 75.00 | 90.00 pass | 0.00 | 59.5 | 76.0 | 50.0 |
API 访问:如需程序化访问评测数据,请使用我们的 API。