跳到主要内容
YZ Index

赢政指数 · 工程判断排行榜

优先级排序、技术选型、事故分级、人员评估 — 规则精确判分(json_schema_exact)。

侧榜:规则精确判分(json_schema_exact) — 本榜单维度使用 AI 裁判评分,不参与主榜计分。
# 模型 工程判断 代码执行 主榜
🥇 豆包 Pro doubao
97.1
84.6 88.1
🥈 GPT-5.5 gpt
97.1
86 88.3
🥉 Claude Sonnet 4.6 claude
96.7
72.8 81.9
4 DeepSeek V4 Pro DeepSeek
96.5
89.8 92.3
5 Claude Opus 4.7 claude
96.1
85.7 90.6
6 GPT-o3 gpt
90.8
87.9 90.5
7 Gemini 3.1 Pro gemini
86.1
64.1 77.2
8 Grok 4 grok
82.7
85.2 89.9
9 Gemini 2.5 Pro gemini
80
72.7 82.2
10 Qwen3 Max qwen
70.6
85.5 87.8
11 文心一言 4.5 ernie
57
71.4 81.3