跳到主要内容
YZ Index

赢政指数 · 材料约束排行榜

长文档理解、跨段落推理、引用必查、矛盾检测。瞎编扣分。

# 模型 材料约束 代码执行 主榜
🥇 Claude Opus 4.7 claude
96.5
85.7 90.6
🥈 Grok 4 grok
95.6
85.2 89.9
🥉 DeepSeek V4 Pro DeepSeek
95.4
89.8 92.3
4 Gemini 2.5 Pro gemini
93.7
72.7 82.2
5 GPT-o3 gpt
93.6
87.9 90.5
6 文心一言 4.5 ernie
93.4
71.4 81.3
7 Gemini 3.1 Pro gemini
93.3
64.1 77.2
8 Claude Sonnet 4.6 claude
92.9
72.8 81.9
9 豆包 Pro doubao
92.4
84.6 88.1
10 GPT-5.5 gpt
91.2
86 88.3
11 Qwen3 Max qwen
90.7
85.5 87.8