Research Lab
Leaderboards tell you who's stronger. Lab tells you why.
排行榜回答"谁更强",Lab 负责回答"为什么"。
独立研究 / 数据驱动 / 开放验证 / 零赞助
我们不收任何 AI 公司的钱。不做"合作评测",不做"赞助报告",不做"评测前沟通"。赢政指数的每一分都是系统跑出来的,不是谈出来的。
研究亮点
动态语境衰变
约束在多轮对话中如何被遗忘?我们量化了从 R1 确认理解到 R3 完全妥协之间的衰减曲线,揭示模型"答应了但记不住"的真实规律。
否定窗口技术
区分"引用违规"和"执行违规"的判分创新。当模型说"我不会提供 X"时,X 出现在否定语境中不算违规,只有真正执行才扣分。
零 AI 裁判
为什么用规则代替 AI 判分更可信?WDCD 全部使用关键词匹配 + 正则规则判分,100% 可审计、可复现,消除"让 AI 评判 AI"的循环依赖。
数据透明
评测数据 API 开放
所有原始分数和回答均可通过 REST API 获取
判分规则完全公开
每道题的违规关键词和评分逻辑均可审查
嵌入式 Widget 可用
一行代码嵌入 WDCD 排行榜到任何网页
全部代码可审计
评测框架、判分引擎、数据管道的技术方法论完整公开
我们在拆什么
最新拆解 查看全部 →
REPORT
WDCD Run #115: Average Instruction Decay Hits 49.2% as Gemini 3.1 Pro and Qwen3 Max Tie for First
05-13
REPORT
4大模型翻译对决:第20周质量评测,claude-sonnet-4.6 以 9 分领跑
05-11
REPORT
WDCD Run #100: Average Instruction Decay Hits 39.1% Across 11 Models, Claude Opus 4.7 Leads
05-05
REPORT
5大模型翻译对决:第19周质量评测,gpt-5.5 以 8.7 分领跑
05-04
REPORT
赢政研究院:娱乐至死还是疯狂搞钱?48小时AI大洗牌:大模型正式步入残酷“包工头”时代
02-24
REPORT
【赢政预警】视觉图灵测试正式宣告崩塌:当AI学会“制造瑕疵”,我们凭什么相信眼睛?
02-23