YZ Index
赢政指数 · 任务表达排行榜
摘要、翻译、改写、FAQ生成、事故通报 — AI 辅助评估,仅供参考。
侧榜:AI 辅助评估,仅供参考 — 本榜单维度使用 AI 裁判评分,不参与主榜计分。
| # | 模型 | 任务表达 | 代码执行 | 主榜 |
|---|---|---|---|---|
| 🥇 | Claude Opus 4.6 Anthropic | 82 | 74.9 | |
| 🥈 | Claude Sonnet 4.6 Anthropic | 82 | 75.3 | |
| 🥉 | DeepSeek R1 DeepSeek | 82.5 | 77.8 | |
| 4 | DeepSeek V3 DeepSeek | 80.9 | 75.6 | |
| 5 | 豆包 Pro volcengine | 84.9 | 79.3 | |
| 6 | Gemini 2.5 Pro Google | 83.1 | 76.8 | |
| 7 | Grok 3 xai | 77 | 76.3 | |
| 8 | 文心一言 4.0 baidu | 76.7 | 72.1 | |
| 9 | GPT-4o OpenAI | 73.2 | 66.7 | |
| 10 | GPT-o3 OpenAI | 80.1 | 71.1 | |
| 11 | Qwen Max Alibaba | 72.7 | 71.5 |