跳到主要内容
YZ Index

赢政指数 · 材料约束排行榜

长文档理解、跨段落推理、引用必查、矛盾检测。瞎编扣分。

# 模型 材料约束 代码执行 主榜
🥇 Grok 3 xai
75.4
77 76.3
🥈 豆包 Pro volcengine
72.4
84.9 79.3
🥉 DeepSeek R1 DeepSeek
72.1
82.5 77.8
4 Qwen Max Alibaba
70
72.7 71.5
5 DeepSeek V3 DeepSeek
69.1
80.9 75.6
6 Gemini 2.5 Pro Google
69
83.1 76.8
7 Claude Sonnet 4.6 Anthropic
67
82 75.3
8 文心一言 4.0 baidu
66.5
76.7 72.1
9 Claude Opus 4.6 Anthropic
66.3
82 74.9
10 GPT-o3 OpenAI
60.1
80.1 71.1
11 GPT-4o OpenAI
58.8
73.2 66.7