YZ Index
赢政指数 · 工程判断排行榜
优先级排序、技术选型、事故分级、人员评估 — AI 辅助评估,仅供参考。
侧榜:AI 辅助评估,仅供参考 — 本榜单维度使用 AI 裁判评分,不参与主榜计分。
| # | 模型 | 工程判断 | 代码执行 | 主榜 |
|---|---|---|---|---|
| 🥇 | Claude Sonnet 4.6 Anthropic | 88.7 | 80.8 | |
| 🥈 | Gemini 2.5 Pro Google | 80.7 | 77.6 | |
| 🥉 | 豆包 Pro volcengine | 91.1 | 85 | |
| 4 | Claude Opus 4.6 Anthropic | 91.5 | 81.3 | |
| 5 | 文心一言 4.0 baidu | 85.8 | 79.6 | |
| 6 | GPT-4o OpenAI | 76.6 | 64.3 | |
| 7 | GPT-o3 OpenAI | 80.2 | 70.4 | |
| 8 | DeepSeek R1 DeepSeek | 91 | 83.1 | |
| 9 | DeepSeek V3 DeepSeek | 87.3 | 82.1 | |
| 10 | Qwen Max Alibaba | 77.3 | 76.5 | |
| 11 | Grok 3 xai | 88.8 | 84.4 |