跳到主要内容
YZ Index

评测数据

主榜 WDCD 守约测试
当前展示:Run #185 WDCD | 2026-06-17 | 公式 v7 | 判分 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面
模型 DCD 综合 R1 约束确认 R2 干扰抵抗 R3 约束完整 逐题
Qwen3 Max qwen 92.50 100 80 190
Claude Sonnet 4.6 claude 90.00 100 80 180
DeepSeek V4 Pro deepseek 87.50 100 80 170
Claude Opus 4.7 claude 85.00 100 80 160
文心一言 4.5 ernie 82.50 90 50 190
Grok 4 grok 82.50 100 80 150
Gemini 2.5 Pro gemini 80.00 100 90 130
Gemini 3.1 Pro gemini 80.00 100 70 150
GPT-5.5 gpt 77.50 100 80 130
GPT-o3 gpt 70.00 100 90 90
豆包 Pro doubao 62.50 70 60 120
API 访问:如需程序化访问评测数据,请使用我们的 API