YZ Index

赢政指数 · 材料约束排行榜

长文档理解、跨段落推理、引用必查、矛盾检测。瞎编扣分。

主榜代码执行排行榜材料约束排行榜工程判断排行榜任务表达排行榜性价比排行榜升降榜

#	模型	材料约束	代码执行	主榜
🥇	Grok 3 grok	84.4	88.9	86.9
🥈	Claude Sonnet 4.6 claude	81.1	86.5	84.1
🥉	Claude Opus 4.6 claude	79.7	86.5	83.4
4	豆包 Pro doubao	79.4	92.2	86.4
5	Gemini 2.5 Pro gemini	78.1	89.4	84.3
6	DeepSeek V3 DeepSeek	77.8	83.2	80.8
7	Qwen Max qwen	77.3	78.4	77.9
8	文心一言 4.0 ernie	72.3	77	74.9
9	DeepSeek R1 DeepSeek	72.2	78.9	75.9
10	GPT-4o gpt	57.6	71.7	65.4
11	GPT-o3 gpt	49.2	73.4	62.5