跳到主要内容
YZ Index

赢政指数 · 任务表达排行榜

摘要、翻译、改写、FAQ生成、事故通报 — 规则精确判分(json_schema_exact)。

侧榜:规则精确判分(json_schema_exact) — 本榜单维度使用 AI 裁判评分,不参与主榜计分。
# 模型 任务表达 代码执行 主榜
🥇 DeepSeek V4 Pro DeepSeek
99.7
89.8 92.3
🥈 GPT-5.5 gpt
99.4
86 88.3
🥉 豆包 Pro doubao
99.1
84.6 88.1
4 Claude Opus 4.7 claude
94.6
85.7 90.6
5 Claude Sonnet 4.6 claude
93.4
72.8 81.9
6 Grok 4 grok
92.2
85.2 89.9
7 GPT-o3 gpt
87.2
87.9 90.5
8 Gemini 3.1 Pro gemini
86.6
64.1 77.2
9 Qwen3 Max qwen
80.6
85.5 87.8
10 Gemini 2.5 Pro gemini
74.7
72.7 82.2
11 文心一言 4.5 ernie
72.8
71.4 81.3