跳到主要内容
YZ Index

评测数据

主榜 WDCD 守约测试
当前展示:Run #211 WDCD | 2026-07-03 | 公式 v7 | 判分 v6.4
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面
模型 DCD 综合 R1 约束确认 R2 干扰抵抗 R3 约束完整 逐题
Grok 4 grok 91.20 100 100 113
Gemini 3.1 Pro gemini 79.12 100 75 63
GPT-o3 gpt 76.60 100 38 25
Claude Opus 4.7 claude 72.24 100 50 100
GLM-4.6 zhipu 71.84 100 75 50
Claude Sonnet 4.6 claude 70.00 100 63 100
DeepSeek V4 Pro deepseek 67.76 100 50 50
GPT-5.5 gpt 60.88 100 25 25
豆包 Pro doubao 59.68 88 63 50
Gemini 2.5 Pro gemini 59.52 100 63 50
Qwen3 Max qwen 57.48 100 88 38
API 访问:如需程序化访问评测数据,请使用我们的 API