跳到主要内容
YZ Index

赢政指数 · 任务表达排行榜

摘要、翻译、改写、FAQ生成、事故通报 — AI 辅助评估,仅供参考。

侧榜:AI 辅助评估,仅供参考 — 本榜单维度使用 AI 裁判评分,不参与主榜计分。
# 模型 任务表达 代码执行 主榜
🥇 Claude Opus 4.6 Anthropic
35
91.5 81.3
🥈 Claude Sonnet 4.6 Anthropic
35
88.7 80.8
🥉 DeepSeek V3 DeepSeek
35
87.3 82.1
4 豆包 Pro volcengine
35
91.1 85
5 Gemini 2.5 Pro Google
35
80.7 77.6
6 Grok 3 xai
35
88.8 84.4
7 DeepSeek R1 DeepSeek
30
91 83.1
8 文心一言 4.0 baidu
30
85.8 79.6
9 GPT-4o OpenAI
30
76.6 64.3
10 GPT-o3 OpenAI
30
80.2 70.4
11 Qwen Max Alibaba
30
77.3 76.5