YZ Index
评测数据
当前展示:Run #180 | 2026-06-15 | 154 题库 | 公式 v7 | 判分 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面。
| 模型 | 代码执行 | 材料约束 | 工程判断 | 任务表达 | 诚信 | 主榜分 | 性价比 | 稳定性 | 可用性 | 逐题 |
|---|---|---|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 claude | 93.60 | 97.30 | 95.30 | 94.00 | 90.00 pass | 95.27 | 6.3 | 67.3 | 100.0 | |
| Qwen3 Max qwen | 92.00 | 94.50 | 70.70 | 80.90 | 81.70 pass | 93.13 | 57.7 | 51.0 | 100.0 | |
| GPT-5.5 gpt | 90.50 | 94.90 | 96.50 | 99.40 | 85.00 pass | 92.48 | 21.9 | 58.8 | 100.0 | |
| DeepSeek V4 Pro deepseek | 87.70 | 97.20 | 95.30 | 99.70 | 83.30 pass | 91.98 | 50.3 | 60.6 | 99.0 | |
| Claude Sonnet 4.6 claude | 88.40 | 94.50 | 96.70 | 94.30 | 86.70 pass | 91.15 | 29.7 | 58.0 | 100.0 | |
| GPT-o3 gpt | 85.90 | 94.20 | 90.30 | 86.90 | 80.00 pass | 89.64 | 10.6 | 55.7 | 98.0 | |
| Grok 4 grok | 81.40 | 96.10 | 88.30 | 94.90 | 83.30 pass | 88.02 | 28.6 | 48.2 | 100.0 | |
| 豆包 Pro doubao | 82.00 | 94.50 | 96.70 | 99.70 | 86.70 pass | 87.63 | 95.8 | 66.7 | 96.0 | |
| 文心一言 4.5 ernie | 64.40 | 92.60 | 54.10 | 68.20 | 65.00 pass | 77.09 | 98.9 | 26.4 | 99.0 | |
| Gemini 3.1 Pro gemini | 61.70 | 94.20 | 86.50 | 86.90 | 83.30 pass | 76.33 | 26.7 | 28.3 | 100.0 | |
| Gemini 2.5 Pro gemini | 61.10 | 94.10 | 89.90 | 74.70 | 88.30 pass | 75.95 | 40.1 | 55.8 | 87.0 |
API 访问:如需程序化访问评测数据,请使用我们的 API。