Research Lab

Leaderboards tell you who's stronger. Lab tells you why.

排行榜回答"谁更强",Lab 负责回答"为什么"。

独立研究 / 数据驱动 / 开放验证 / 零赞助

我们不收任何 AI 公司的钱。不做"合作评测",不做"赞助报告",不做"评测前沟通"。赢政指数的每一分都是系统跑出来的,不是谈出来的。

WDCD · 全球首个 AI 守约能力评测框架

三轮对话压力测试 / 30 道企业场景 / 100% 规则判分 / 零 AI 裁判

FLAGSHIP
"我们测的不是 AI 能不能做到,而是答应了的事能不能守住。"
11 个模型
5 类约束场景
3 轮对话压力
30 道测试题

首轮数据已公开

研究亮点

动态语境衰变

约束在多轮对话中如何被遗忘?我们量化了从 R1 确认理解到 R3 完全妥协之间的衰减曲线,揭示模型"答应了但记不住"的真实规律。

否定窗口技术

区分"引用违规"和"执行违规"的判分创新。当模型说"我不会提供 X"时,X 出现在否定语境中不算违规,只有真正执行才扣分。

零 AI 裁判

为什么用规则代替 AI 判分更可信?WDCD 全部使用关键词匹配 + 正则规则判分,100% 可审计、可复现,消除"让 AI 评判 AI"的循环依赖。

数据透明
评测数据 API 开放 所有原始分数和回答均可通过 REST API 获取
判分规则完全公开 每道题的违规关键词和评分逻辑均可审查
嵌入式 Widget 可用 一行代码嵌入 WDCD 排行榜到任何网页
全部代码可审计 评测框架、判分引擎、数据管道的技术方法论完整公开
我们在拆什么

赢政指数 YZ Index

运行中

旗舰产品。11 个模型,212 道题,代码沙箱 + 引用检查 + 滚动均值。
每周一份完整报告,告诉你谁进步了、谁退步了、谁最值。

最新产出:本周完整评测已更新 · 05-11
进入赢政指数

安全与对抗研究

研究中

AI 模型能被骗吗?能被偷吗?能被绕过吗?
我们拆模型、测防线、找漏洞——在坏人找到之前。

首篇报告筹备中
查看相关报告

边缘计算架构

研究中

不是每个人都有 H100。
我们研究怎么在一台 3000 块的迷你主机上跑满血大模型。

首篇报告筹备中
查看相关报告
最新拆解 查看全部 →