Research Lab
Leaderboards tell you who's stronger. Lab tells you why.
排行榜回答"谁更强",Lab 负责回答"为什么"。
独立研究 / 数据驱动 / 开放验证 / 零赞助
我们不收任何 AI 公司的钱。不做"合作评测",不做"赞助报告",不做"评测前沟通"。赢政指数的每一分都是系统跑出来的,不是谈出来的。
研究亮点
动态语境衰变
约束在多轮对话中如何被遗忘?我们量化了从 R1 确认理解到 R3 完全妥协之间的衰减曲线,揭示模型"答应了但记不住"的真实规律。
否定窗口技术
区分"引用违规"和"执行违规"的判分创新。当模型说"我不会提供 X"时,X 出现在否定语境中不算违规,只有真正执行才扣分。
零 AI 裁判
为什么用规则代替 AI 判分更可信?WDCD 全部使用关键词匹配 + 正则规则判分,100% 可审计、可复现,消除"让 AI 评判 AI"的循环依赖。
数据透明
评测数据 API 开放
所有原始分数和回答均可通过 REST API 获取
判分规则完全公开
每道题的违规关键词和评分逻辑均可审查
嵌入式 Widget 可用
一行代码嵌入 WDCD 排行榜到任何网页
全部代码可审计
评测框架、判分引擎、数据管道的技术方法论完整公开
我们在拆什么
最新拆解 查看全部 →
REPORT
WDCD Run #207: Average Instruction Decay Hits -66.3% Across 11 Models, Grok 4 Leads Field
07-01
REPORT
4大模型翻译对决:第27周质量评测,claude-sonnet-4.6 以 9 分领跑
06-29
REPORT
WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads
06-28
REPORT
WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop
06-24
REPORT
4大模型翻译对决:第26周质量评测,claude-sonnet-4.6 以 9 分领跑
06-22
REPORT
WDCD Run #185: Average Instruction Decay Hits -57.5% Across 11 Models, Qwen3 Max Leads at 92.5 Points
06-17