跳到主要内容
YZ Index

评测数据

主榜 WDCD 守约测试
当前展示:Run #204 | 2026-06-29 | 154 题库 | 公式 v7 | 判分 v6.3
数据公开说明:为防止题库污染和过拟合,题目原文和预期答案不公开。本页展示模型回答、得分、判分方式等透明数据。完整方法论请参阅方法论页面
模型 代码执行 材料约束 工程判断 任务表达 诚信 主榜分 性价比 稳定性 可用性 逐题
Claude Opus 4.7 claude 84.30 95.50 95.50 94.30 90.00 pass 89.34 6.1 53.8 100.0
DeepSeek V4 Pro deepseek 83.70 95.00 93.80 99.70 80.00 pass 88.79 49.5 55.7 99.0
Grok 4 grok 76.30 95.70 88.30 82.50 75.00 pass 85.03 27.6 41.5 99.0
GPT-o3 gpt 74.00 94.90 92.20 87.20 83.30 pass 83.41 10.2 51.0 95.9
Claude Sonnet 4.6 claude 75.20 92.50 95.10 84.60 83.30 pass 82.99 28.1 42.7 100.0
Gemini 3.1 Pro gemini 72.90 94.20 88.20 86.60 83.30 pass 82.49 28.0 36.1 100.0
豆包 Pro doubao 73.20 91.90 97.10 99.70 86.70 pass 81.62 95.0 51.6 95.9
Qwen3 Max qwen 71.20 92.90 70.00 79.30 81.70 pass 80.97 53.9 37.1 100.0
Gemini 2.5 Pro gemini 63.80 95.10 85.30 74.70 86.70 pass 77.89 40.2 44.4 90.8
文心一言 4.5 ernie 56.40 93.70 58.00 72.80 61.70 pass 73.19 98.7 26.7 100.0
GPT-5.5 gpt 55.80 93.80 97.10 99.40 83.30 pass 72.90 18.5 47.9 90.8
API 访问:如需程序化访问评测数据,请使用我们的 API