YZ Index
赢政指数 · 任务表达排行榜
摘要、翻译、改写、FAQ生成、事故通报 — 规则精确判分(json_schema_exact)。
侧榜:规则精确判分(json_schema_exact) — 本榜单维度使用 AI 裁判评分,不参与主榜计分。
| # | 模型 | 任务表达 | 代码执行 | 主榜 |
|---|---|---|---|---|
| 🥇 | DeepSeek V4 Pro DeepSeek | 89.8 | 92.3 | |
| 🥈 | GPT-5.5 gpt | 86 | 88.3 | |
| 🥉 | 豆包 Pro doubao | 84.6 | 88.1 | |
| 4 | Claude Opus 4.7 claude | 85.7 | 90.6 | |
| 5 | Claude Sonnet 4.6 claude | 72.8 | 81.9 | |
| 6 | Grok 4 grok | 85.2 | 89.9 | |
| 7 | GPT-o3 gpt | 87.9 | 90.5 | |
| 8 | Gemini 3.1 Pro gemini | 64.1 | 77.2 | |
| 9 | Qwen3 Max qwen | 85.5 | 87.8 | |
| 10 | Gemini 2.5 Pro gemini | 72.7 | 82.2 | |
| 11 | 文心一言 4.5 ernie | 71.4 | 81.3 |