Research Lab

Leaderboards tell you who's stronger. Lab tells you why.

排行榜回答"谁更强"，Lab 负责回答"为什么"。

独立研究 / 数据驱动 / 开放验证 / 零赞助

我们不收任何 AI 公司的钱。不做"合作评测"，不做"赞助报告"，不做"评测前沟通"。赢政指数的每一分都是系统跑出来的，不是谈出来的。

WDCD · 全球首个 AI 守约能力评测框架

三轮对话压力测试 / 30 道企业场景 / 100% 规则判分 / 零 AI 裁判

FLAGSHIP

"我们测的不是 AI 能不能做到，而是答应了的事能不能守住。"

11 个模型

5 类约束场景

3 轮对话压力

30 道测试题

首轮数据已公开

查看排行榜技术方法论 API 文档为什么做这件事

研究亮点

动态语境衰变

约束在多轮对话中如何被遗忘？我们量化了从 R1 确认理解到 R3 完全妥协之间的衰减曲线，揭示模型"答应了但记不住"的真实规律。

否定窗口技术

区分"引用违规"和"执行违规"的判分创新。当模型说"我不会提供 X"时，X 出现在否定语境中不算违规，只有真正执行才扣分。

零 AI 裁判

为什么用规则代替 AI 判分更可信？WDCD 全部使用关键词匹配 + 正则规则判分，100% 可审计、可复现，消除"让 AI 评判 AI"的循环依赖。

数据透明

评测数据 API 开放 所有原始分数和回答均可通过 REST API 获取

判分规则完全公开 每道题的违规关键词和评分逻辑均可审查

嵌入式 Widget 可用 一行代码嵌入 WDCD 排行榜到任何网页

全部代码可审计 评测框架、判分引擎、数据管道的技术方法论完整公开

我们在拆什么

赢政指数 YZ Index

运行中

旗舰产品。11 个模型，154 道题，代码沙箱 + 引用检查 + 滚动均值。
每周一份完整报告，告诉你谁进步了、谁退步了、谁最值。

最新产出：本周完整评测已更新 · 06-29

进入赢政指数

安全与对抗研究

研究中

AI 模型能被骗吗？能被偷吗？能被绕过吗？
我们拆模型、测防线、找漏洞——在坏人找到之前。

首篇报告筹备中

查看相关报告

边缘计算架构

研究中

不是每个人都有 H100。
我们研究怎么在一台 3000 块的迷你主机上跑满血大模型。