跳到主要内容
YZ Index

赢政指数 · 任务表达排行榜

摘要、翻译、改写、FAQ生成、事故通报 — AI 辅助评估,仅供参考。

侧榜:AI 辅助评估,仅供参考 — 本榜单维度使用 AI 裁判评分,不参与主榜计分。
# 模型 任务表达 代码执行 主榜
🥇 Claude Opus 4.6 Anthropic
40
82 74.9
🥈 Claude Sonnet 4.6 Anthropic
40
82 75.3
🥉 DeepSeek R1 DeepSeek
40
82.5 77.8
4 DeepSeek V3 DeepSeek
40
80.9 75.6
5 豆包 Pro volcengine
40
84.9 79.3
6 Gemini 2.5 Pro Google
40
83.1 76.8
7 Grok 3 xai
40
77 76.3
8 文心一言 4.0 baidu
35
76.7 72.1
9 GPT-4o OpenAI
35
73.2 66.7
10 GPT-o3 OpenAI
35
80.1 71.1
11 Qwen Max Alibaba
35
72.7 71.5