跳到主要内容
YZ Index

赢政指数 · 材料约束排行榜

长文档理解、跨段落推理、引用必查、矛盾检测。瞎编扣分。

# 模型 材料约束 代码执行 主榜
🥇 Grok 3 xai
79
88.8 84.4
🥈 豆包 Pro volcengine
77.6
91.1 85
🥉 DeepSeek V3 DeepSeek
75.8
87.3 82.1
4 Qwen Max Alibaba
75.4
77.3 76.5
5 Gemini 2.5 Pro Google
73.9
80.7 77.6
6 DeepSeek R1 DeepSeek
73.4
91 83.1
7 文心一言 4.0 baidu
72
85.8 79.6
8 Claude Sonnet 4.6 Anthropic
71.1
88.7 80.8
9 Claude Opus 4.6 Anthropic
68.9
91.5 81.3
10 GPT-o3 OpenAI
58.5
80.2 70.4
11 GPT-4o OpenAI
49.3
76.6 64.3