YZ Index
评测数据
当前展示:Run #214 | 2026-07-05 | 154 题库 | 公式 v7 | 判分 v6.4
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面。
| 模型 | 代码执行 | 材料约束 | 工程判断 | 任务表达 | 诚信 | 主榜分 | 性价比 | 稳定性 | 可用性 | 逐题 |
|---|---|---|---|---|---|---|---|---|---|---|
| 豆包 Pro doubao | 97.00 | 78.20 | 100.00 | 81.70 | 80.00 pass | 88.54 | 100.0 | 65.7 | 100.0 | |
| Gemini 3.1 Pro gemini | 97.00 | 78.20 | 75.00 | 51.70 | 80.00 pass | 88.54 | 89.0 | 35.7 | 100.0 | |
| Gemini 2.5 Pro gemini | 87.50 | 78.20 | 100.00 | 56.70 | 80.00 pass | 83.32 | 97.3 | 48.1 | 100.0 | |
| Grok 4 grok | 75.00 | 89.30 | 79.20 | 60.80 | 45.00 warn | 81.44 | 84.1 | 35.8 | 100.0 | |
| Claude Sonnet 4.6 claude | 72.00 | 89.30 | 100.00 | 90.00 | 80.00 pass | 79.79 | 87.8 | 50.6 | 100.0 | |
| GPT-o3 gpt | 72.00 | 89.30 | 100.00 | 56.70 | 90.00 pass | 79.79 | 44.4 | 48.7 | 95.0 | |
| DeepSeek V4 Pro deepseek | 88.70 | 64.30 | 89.60 | 76.70 | 65.00 pass | 77.72 | 98.1 | 38.7 | 100.0 | |
| GPT-5.5 gpt | 72.00 | 78.20 | 100.00 | 81.70 | 90.00 pass | 74.79 | 73.6 | 48.3 | 100.0 | |
| Claude Opus 4.7 claude | 55.30 | 89.30 | 86.10 | 65.80 | 80.00 pass | 70.60 | 23.1 | 34.9 | 100.0 | |
| Qwen3 Max qwen | 42.80 | 89.30 | 55.60 | 41.70 | 80.00 pass | 63.73 | 97.7 | 26.5 | 100.0 | |
| GLM-4.6 zhipu | 88.70 | 25.00 | 0.00 | 45.00 | 0.00 fail | 60.04 | 87.3 | 75.6 | 35.0 |
API 访问:如需程序化访问评测数据,请使用我们的 API。