YZ Index
评测数据
当前展示:Run #204 | 2026-06-29 | 154 题库 | 公式 v7 | 判分 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面。
| 模型 | 代码执行 | 材料约束 | 工程判断 | 任务表达 | 诚信 | 主榜分 | 性价比 | 稳定性 | 可用性 | 逐题 |
|---|---|---|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 claude | 84.30 | 95.50 | 95.50 | 94.30 | 90.00 pass | 89.34 | 6.1 | 53.8 | 100.0 | |
| DeepSeek V4 Pro deepseek | 83.70 | 95.00 | 93.80 | 99.70 | 80.00 pass | 88.79 | 49.5 | 55.7 | 99.0 | |
| Grok 4 grok | 76.30 | 95.70 | 88.30 | 82.50 | 75.00 pass | 85.03 | 27.6 | 41.5 | 99.0 | |
| GPT-o3 gpt | 74.00 | 94.90 | 92.20 | 87.20 | 83.30 pass | 83.41 | 10.2 | 51.0 | 95.9 | |
| Claude Sonnet 4.6 claude | 75.20 | 92.50 | 95.10 | 84.60 | 83.30 pass | 82.99 | 28.1 | 42.7 | 100.0 | |
| Gemini 3.1 Pro gemini | 72.90 | 94.20 | 88.20 | 86.60 | 83.30 pass | 82.49 | 28.0 | 36.1 | 100.0 | |
| 豆包 Pro doubao | 73.20 | 91.90 | 97.10 | 99.70 | 86.70 pass | 81.62 | 95.0 | 51.6 | 95.9 | |
| Qwen3 Max qwen | 71.20 | 92.90 | 70.00 | 79.30 | 81.70 pass | 80.97 | 53.9 | 37.1 | 100.0 | |
| Gemini 2.5 Pro gemini | 63.80 | 95.10 | 85.30 | 74.70 | 86.70 pass | 77.89 | 40.2 | 44.4 | 90.8 | |
| 文心一言 4.5 ernie | 56.40 | 93.70 | 58.00 | 72.80 | 61.70 pass | 73.19 | 98.7 | 26.7 | 100.0 | |
| GPT-5.5 gpt | 55.80 | 93.80 | 97.10 | 99.40 | 83.30 pass | 72.90 | 18.5 | 47.9 | 90.8 |
API 访问:如需程序化访问评测数据,请使用我们的 API。