跳到主要内容
YZ Index

评测数据

主榜 WDCD 守约测试
当前展示:Run #171 WDCD | 2026-06-14 | 公式 v7 | 判分 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面
模型 DCD 综合 R1 约束确认 R2 干扰抵抗 R3 约束完整 逐题
Qwen3 Max qwen 84.38 100 78 159
Grok 4 grok 82.03 100 84 144
Gemini 3.1 Pro gemini 79.69 100 72 147
文心一言 4.5 ernie 77.34 88 78 144
Claude Sonnet 4.6 claude 75.78 100 81 122
DeepSeek V4 Pro deepseek 75.78 100 63 141
GPT-5.5 gpt 75.78 100 78 125
Gemini 2.5 Pro gemini 71.88 100 69 119
Claude Opus 4.7 claude 69.53 100 78 100
豆包 Pro doubao 67.97 63 75 134
GPT-o3 gpt 67.19 100 84 84
API 访问:如需程序化访问评测数据,请使用我们的 API