赢政指数 · 更新日志

2026-07-30 03:09 SGT 轻量评测已完成

11 个模型开始：2026-07-30 03:00 SGT 完成：2026-07-30 03:09 SGT 9分22秒 Run #254 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-29 05:11 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-07-29 04:30 SGT 完成：2026-07-29 05:11 SGT 41分24秒 Run #253 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-29 03:17 SGT 轻量评测已完成

11 个模型开始：2026-07-29 03:10 SGT 完成：2026-07-29 03:17 SGT 7分41秒 Run #252 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-28 03:17 SGT 轻量评测已完成

11 个模型开始：2026-07-28 03:00 SGT 完成：2026-07-28 03:17 SGT 17分1秒 Run #250 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-27 05:03 SGT 完整评测已完成

11 个模型开始：2026-07-27 04:00 SGT 完成：2026-07-27 05:03 SGT 1时3分 Run #249 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-27 03:13 SGT 轻量评测已完成

11 个模型开始：2026-07-27 03:00 SGT 完成：2026-07-27 03:13 SGT 13分10秒 Run #248 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-26 05:40 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-07-26 04:30 SGT 完成：2026-07-26 05:40 SGT 1时10分 Run #247 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-26 03:26 SGT 轻量评测已完成

11 个模型开始：2026-07-26 03:00 SGT 完成：2026-07-26 03:26 SGT 26分10秒 Run #246 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-25 03:20 SGT 轻量评测已完成

11 个模型开始：2026-07-25 03:00 SGT 完成：2026-07-25 03:20 SGT 20分41秒 Run #245 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-24 03:26 SGT 轻量评测已完成

11 个模型开始：2026-07-24 03:00 SGT 完成：2026-07-24 03:26 SGT 26分11秒 Run #244 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-23 03:15 SGT 轻量评测已完成

11 个模型开始：2026-07-23 03:00 SGT 完成：2026-07-23 03:15 SGT 15分30秒 Run #243 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-22 05:06 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-07-22 04:30 SGT 完成：2026-07-22 05:06 SGT 36分53秒 Run #242 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-22 03:14 SGT 轻量评测已完成

11 个模型开始：2026-07-22 03:00 SGT 完成：2026-07-22 03:14 SGT 14分11秒 Run #241 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-21 03:15 SGT 轻量评测已完成

11 个模型开始：2026-07-21 03:00 SGT 完成：2026-07-21 03:15 SGT 15分21秒 Run #240 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-20 04:53 SGT 完整评测已完成

11 个模型开始：2026-07-20 04:00 SGT 完成：2026-07-20 04:53 SGT 53分46秒 Run #239 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-20 03:09 SGT 轻量评测已完成

11 个模型开始：2026-07-20 03:00 SGT 完成：2026-07-20 03:09 SGT 9分21秒 Run #238 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-19 03:14 SGT 轻量评测已完成

11 个模型开始：2026-07-19 03:00 SGT 完成：2026-07-19 03:14 SGT 14分11秒 Run #237 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-18 03:20 SGT 轻量评测已完成

11 个模型开始：2026-07-18 03:00 SGT 完成：2026-07-18 03:20 SGT 20分51秒 Run #236 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-17 03:12 SGT 轻量评测已完成

11 个模型开始：2026-07-17 03:00 SGT 完成：2026-07-17 03:12 SGT 12分21秒 Run #235 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-16 03:12 SGT 轻量评测已完成

11 个模型开始：2026-07-16 03:00 SGT 完成：2026-07-16 03:12 SGT 12分11秒 Run #234 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-15 05:10 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-07-15 04:30 SGT 完成：2026-07-15 05:10 SGT 40分17秒 Run #233 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-15 03:16 SGT 轻量评测已完成

11 个模型开始：2026-07-15 03:00 SGT 完成：2026-07-15 03:16 SGT 16分21秒 Run #232 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-14 03:09 SGT 轻量评测已完成

11 个模型开始：2026-07-14 03:00 SGT 完成：2026-07-14 03:09 SGT 9分11秒 Run #231 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-13 04:59 SGT 完整评测已完成

11 个模型开始：2026-07-13 04:00 SGT 完成：2026-07-13 04:59 SGT 59分12秒 Run #230 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-13 03:18 SGT 轻量评测已完成

11 个模型开始：2026-07-13 03:10 SGT 完成：2026-07-13 03:18 SGT 8分20秒 Run #229 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-12 05:52 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-07-12 04:30 SGT 完成：2026-07-12 05:52 SGT 1时22分 Run #227 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-12 03:10 SGT 轻量评测已完成

11 个模型开始：2026-07-12 03:00 SGT 完成：2026-07-12 03:10 SGT 10分41秒 Run #226 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-11 03:15 SGT 轻量评测已完成

11 个模型开始：2026-07-11 03:00 SGT 完成：2026-07-11 03:15 SGT 15分51秒 Run #225 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-10 03:18 SGT 轻量评测已完成

11 个模型开始：2026-07-10 03:10 SGT 完成：2026-07-10 03:18 SGT 8分41秒 Run #224 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-10 03:04 SGT 轻量评测已完成

11 个模型开始：2026-07-10 03:00 SGT 完成：2026-07-10 03:04 SGT 4分31秒 Run #223 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-09 03:11 SGT 轻量评测已完成

11 个模型开始：2026-07-09 03:00 SGT 完成：2026-07-09 03:11 SGT 11分21秒 Run #222 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-08 05:15 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-07-08 04:30 SGT 完成：2026-07-08 05:15 SGT 45分20秒 Run #221 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-08 03:14 SGT 轻量评测已完成

11 个模型开始：2026-07-08 03:10 SGT 完成：2026-07-08 03:14 SGT 4分21秒 Run #220 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-07 03:18 SGT 轻量评测已完成

11 个模型开始：2026-07-07 03:10 SGT 完成：2026-07-07 03:18 SGT 8分11秒 Run #218 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-06 08:00 SGT 完整评测已完成

11 个模型开始：2026-07-06 04:00 SGT 完成：2026-07-06 08:00 SGT 4时0分 Run #216 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-06 03:08 SGT 轻量评测已完成

11 个模型开始：2026-07-06 03:00 SGT 完成：2026-07-06 03:08 SGT 8分1秒 Run #215 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-05 03:12 SGT 轻量评测已完成

11 个模型开始：2026-07-05 03:00 SGT 完成：2026-07-05 03:12 SGT 12分50秒 Run #214 公式 v7 · 判分 v6.4 · 题库 v7

时间未知轻量评测 unknown

0 个模型 Run #13

时间未知轻量评测 unknown

0 个模型 Run #12

时间未知轻量评测 unknown

0 个模型 Run #11

时间未知轻量评测 unknown

0 个模型 Run #10

时间未知轻量评测 unknown

0 个模型 Run #9

2026-07-04 03:19 SGT 轻量评测已完成

11 个模型开始：2026-07-04 03:10 SGT 完成：2026-07-04 03:19 SGT 9分51秒 Run #213 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-04 03:08 SGT 轻量评测已完成

11 个模型开始：2026-07-04 03:00 SGT 完成：2026-07-04 03:08 SGT 8分41秒 Run #212 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-03 11:05 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-07-03 04:41 SGT 完成：2026-07-03 11:05 SGT 6时23分 Run #211 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-03 04:34 SGT 版本升级

WDCD 守约榜 v3.1 升级 + 评测阵容换血

守约测试升级 v3.1

多轮守约榜（WDCD）题库升级至 v3.1：新增 17 道多轮渐进施压题，覆盖「原语选择陷阱」共谋测试「错误前提延续」等真实守约压力场景——违规判定基于运行时可复现的规则，无争议。 **为什么**：旧题库对前沿模型日趋饱和（顶部守约分挤在 93 一线，难分高下）。v3.1 通过更贴近真实企业场景的多轮施压，把梯队重新拉开——实测守约分从顶部约 98 平滑分布到约 72，区分度显著改善。 **题池**：17 道 v3.1 新题 + 8 道跨版本锚点题，共 25 道。历史 WDCD 榜单保留原样，跨版本口径不直接比较。

评测阵容换血

• **新增**智谱 GLM-4.6进入评测阵容——国产大模型正牌选手。

• **暂时下架**「文心一言 4.5」：因其 API 访问持续不可用，无法获得可信评分，暂从榜单移除；待访问恢复后再评估重新纳入。

评测阵容现为 11 个模型。

2026-07-03 03:24 SGT 轻量评测已完成

11 个模型开始：2026-07-03 03:10 SGT 完成：2026-07-03 03:24 SGT 14分1秒 Run #210 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-03 03:05 SGT 轻量评测已完成

11 个模型开始：2026-07-03 03:00 SGT 完成：2026-07-03 03:05 SGT 5分1秒 Run #209 公式 v7 · 判分 v6.4 · 题库 v7

2026-07-03 01:29 SGT 版本升级

判分集升级 v6.4：捆绑计分上线 + 判分修复

什么变了

**捆绑计分**：结构化输出类题目（json_schema_exact）由「逐点部分分」升级为「捆绑计分」——检查点按业务语义分组，组内全部正确才得该组分。 **为什么**：逐点部分分下，38 个检查点错 3 个仍可得 92 分；但真实交付中一处金额抄错、一处条款漏掉即整体返工。部分分系统性高估了模型在关键任务上的可用性，也让榜单头部日趋饱和（顶部材料约束维度已达 95+）。捆绑计分对齐真实交付的容错标准。 **效果**：用最近一次完整评测的原始回答对照重算，头部模型核心分约 95→80，梯队区分度显著改善。题目、模型回答、每个检查点的对错判定全部不变，仅聚合口径升级。

判分修复

• 修复 SQL「最近 N 天」类题目的时间衰减问题（测试数据日期固定，随时间推移落到查询窗口外，导致正确查询被误判为 0），并建立月度自动重锚，杜绝复发。

• 退役 1 道判分器与题目语言不匹配、长期无法评分的题。

历史可比性

本次起的评测标注判分集 v6.4；此前榜单保留原样并标注 v6.3，跨口径分数不做直接对比。（注：多轮守约榜 WDCD 的下一代升级——多轮渐进施压 + 运行时行为验证——正在校准中，将于后续单独上线。）

2026-07-02 03:09 SGT 轻量评测已完成

11 个模型开始：2026-07-02 03:00 SGT 完成：2026-07-02 03:09 SGT 9分11秒 Run #208 公式 v7 · 判分 v6.3 · 题库 v7

2026-07-01 04:58 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-07-01 04:30 SGT 完成：2026-07-01 04:58 SGT 28分55秒 Run #207 公式 v7 · 判分 v6.3 · 题库 v7

2026-07-01 03:09 SGT 轻量评测已完成

11 个模型开始：2026-07-01 03:00 SGT 完成：2026-07-01 03:09 SGT 9分21秒 Run #206 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-30 03:03 SGT 轻量评测已完成

11 个模型开始：2026-06-30 03:00 SGT 完成：2026-06-30 03:03 SGT 3分31秒 Run #205 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-29 04:56 SGT 完整评测已完成

11 个模型开始：2026-06-29 04:00 SGT 完成：2026-06-29 04:56 SGT 56分31秒 Run #204 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-29 03:03 SGT 轻量评测已完成

11 个模型开始：2026-06-29 03:00 SGT 完成：2026-06-29 03:03 SGT 3分31秒 Run #203 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-28 05:58 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-06-28 04:30 SGT 完成：2026-06-28 05:58 SGT 1时28分 Run #202 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-28 03:03 SGT 轻量评测已完成

11 个模型开始：2026-06-28 03:00 SGT 完成：2026-06-28 03:03 SGT 3分41秒 Run #201 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-27 03:06 SGT 轻量评测已完成

11 个模型开始：2026-06-27 03:00 SGT 完成：2026-06-27 03:06 SGT 6分51秒 Run #200 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-26 03:05 SGT 轻量评测已完成

11 个模型开始：2026-06-26 03:00 SGT 完成：2026-06-26 03:05 SGT 5分51秒 Run #198 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-25 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-25 03:00 SGT 完成：2026-06-25 03:02 SGT 2分10秒 Run #197 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-24 04:54 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-06-24 04:30 SGT 完成：2026-06-24 04:54 SGT 24分22秒 Run #196 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-24 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-24 03:00 SGT 完成：2026-06-24 03:01 SGT 1分31秒 Run #195 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-23 03:11 SGT 轻量评测已完成

11 个模型开始：2026-06-23 03:10 SGT 完成：2026-06-23 03:11 SGT 1分30秒 Run #194 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-22 04:39 SGT 完整评测已完成

11 个模型开始：2026-06-22 04:00 SGT 完成：2026-06-22 04:39 SGT 39分47秒 Run #192 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-22 03:06 SGT 轻量评测已完成

11 个模型开始：2026-06-22 03:00 SGT 完成：2026-06-22 03:06 SGT 6分41秒 Run #191 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-21 03:12 SGT 轻量评测已完成

11 个模型开始：2026-06-21 03:10 SGT 完成：2026-06-21 03:12 SGT 2分31秒 Run #190 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-20 03:03 SGT 轻量评测已完成

11 个模型开始：2026-06-20 03:00 SGT 完成：2026-06-20 03:03 SGT 3分1秒 Run #188 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-19 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-19 03:00 SGT 完成：2026-06-19 03:02 SGT 2分41秒 Run #187 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-18 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-18 03:00 SGT 完成：2026-06-18 03:02 SGT 2分30秒 Run #186 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-17 04:54 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-06-17 04:30 SGT 完成：2026-06-17 04:54 SGT 24分19秒 Run #185 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-17 03:12 SGT 轻量评测已完成

11 个模型开始：2026-06-17 03:10 SGT 完成：2026-06-17 03:12 SGT 2分40秒 Run #184 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-16 03:14 SGT 轻量评测已完成

11 个模型开始：2026-06-16 03:10 SGT 完成：2026-06-16 03:14 SGT 4分21秒 Run #182 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-15 09:25 SGT 完整评测已完成

11 个模型开始：2026-06-15 08:34 SGT 完成：2026-06-15 09:25 SGT 51分16秒 Run #180 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-15 03:03 SGT 轻量评测已完成

11 个模型开始：2026-06-15 03:00 SGT 完成：2026-06-15 03:03 SGT 3分31秒 Run #176 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-14 05:53 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-06-14 04:30 SGT 完成：2026-06-14 05:53 SGT 1时23分 Run #171 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-14 03:19 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-06-13 23:10 SGT 完成：2026-06-14 03:19 SGT 4时9分 Run #169 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-14 03:06 SGT 轻量评测已完成

11 个模型开始：2026-06-14 03:00 SGT 完成：2026-06-14 03:06 SGT 6分51秒 Run #170 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-13 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-13 03:00 SGT 完成：2026-06-13 03:01 SGT 1分41秒 Run #166 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-12 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-12 03:00 SGT 完成：2026-06-12 03:01 SGT 1分40秒 Run #165 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-11 13:19 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-06-11 11:55 SGT 完成：2026-06-11 13:19 SGT 1时24分 Run #164 公式 v7 · 判分 v6.3 · 题库 v7

2026-06-11 09:18 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-06-11 07:57 SGT 完成：2026-06-11 09:18 SGT 1时20分 Run #161 公式 v7 · 判分 v6.3 · 题库 v6

2026-06-11 07:14 SGT 轻量评测已完成

11 个模型开始：2026-06-11 07:12 SGT 完成：2026-06-11 07:14 SGT 1分51秒 Run #159 公式 v7 · 判分 v6.2 · 题库 v6

2026-06-11 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-11 03:00 SGT 完成：2026-06-11 03:02 SGT 2分20秒 Run #158 公式 v7 · 判分 v6.1 · 题库 v6

2026-06-10 05:00 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-06-10 04:30 SGT 完成：2026-06-10 05:00 SGT 30分33秒 Run #157 公式 v7 · 判分 v6.1 · 题库 v6

2026-06-10 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-10 03:00 SGT 完成：2026-06-10 03:01 SGT 1分41秒 Run #156 公式 v7 · 判分 v6.1 · 题库 v6

2026-06-09 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-09 03:00 SGT 完成：2026-06-09 03:01 SGT 1分41秒 Run #155 公式 v7 · 判分 v6.1 · 题库 v6

2026-06-08 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-08 03:00 SGT 完成：2026-06-08 03:02 SGT 2分1秒 Run #153 公式 v7 · 判分 v6.1 · 题库 v6

2026-06-07 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-07 03:00 SGT 完成：2026-06-07 03:02 SGT 2分11秒 Run #152 公式 v7 · 判分 v6.1 · 题库 v6

2026-06-06 19:26 SGT 轻量评测已完成

11 个模型开始：2026-06-06 19:24 SGT 完成：2026-06-06 19:26 SGT 1分40秒 Run #151 公式 v7 · 判分 v6.1 · 题库 v6

2026-06-06 03:31 SGT 轻量评测已完成 social_monitor

1 个模型开始：2026-06-06 03:30 SGT 完成：2026-06-06 03:31 SGT 1分40秒 Run #150 公式 v7 · 判分 v6 · 题库 v6

2026-06-05 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-05 03:00 SGT 完成：2026-06-05 03:01 SGT 1分41秒 Run #148 公式 v7 · 判分 v6 · 题库 v6

2026-06-04 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-04 03:00 SGT 完成：2026-06-04 03:01 SGT 1分51秒 Run #147 公式 v7 · 判分 v6 · 题库 v6

2026-06-03 04:57 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-06-03 04:30 SGT 完成：2026-06-03 04:57 SGT 27分54秒 Run #146 公式 v7 · 判分 v6 · 题库 v6

2026-06-03 03:01 SGT 轻量评测已完成

11 个模型开始：2026-06-03 03:00 SGT 完成：2026-06-03 03:01 SGT 1分51秒 Run #145 公式 v7 · 判分 v6 · 题库 v6

2026-06-02 03:31 SGT 轻量评测已完成 social_monitor

1 个模型开始：2026-06-02 03:30 SGT 完成：2026-06-02 03:31 SGT 1分20秒 Run #144 公式 v7 · 判分 v6 · 题库 v6

2026-06-02 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-02 03:00 SGT 完成：2026-06-02 03:02 SGT 2分21秒 Run #143 公式 v7 · 判分 v6 · 题库 v6

2026-06-01 03:02 SGT 轻量评测已完成

11 个模型开始：2026-06-01 03:00 SGT 完成：2026-06-01 03:02 SGT 2分31秒 Run #141 公式 v7 · 判分 v6 · 题库 v6

2026-05-31 05:54 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-05-31 04:30 SGT 完成：2026-05-31 05:54 SGT 1时24分 Run #140 公式 v7 · 判分 v6 · 题库 v6

2026-05-31 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-31 03:00 SGT 完成：2026-05-31 03:01 SGT 1分20秒 Run #139 公式 v7 · 判分 v6 · 题库 v6

2026-05-30 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-30 03:00 SGT 完成：2026-05-30 03:01 SGT 1分30秒 Run #138 公式 v7 · 判分 v6 · 题库 v6

2026-05-29 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-29 03:00 SGT 完成：2026-05-29 03:01 SGT 1分41秒 Run #137 公式 v7 · 判分 v6 · 题库 v6

2026-05-28 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-28 03:00 SGT 完成：2026-05-28 03:01 SGT 1分41秒 Run #136 公式 v7 · 判分 v6 · 题库 v6

2026-05-27 04:54 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-05-27 04:30 SGT 完成：2026-05-27 04:54 SGT 24分29秒 Run #135 公式 v7 · 判分 v6 · 题库 v6

2026-05-27 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-27 03:00 SGT 完成：2026-05-27 03:01 SGT 1分11秒 Run #134 公式 v7 · 判分 v6 · 题库 v6

2026-05-26 03:31 SGT 轻量评测已完成 social_monitor

1 个模型开始：2026-05-26 03:30 SGT 完成：2026-05-26 03:31 SGT 1分20秒 Run #133 公式 v7 · 判分 v6 · 题库 v6

2026-05-26 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-26 03:00 SGT 完成：2026-05-26 03:01 SGT 1分31秒 Run #132 公式 v7 · 判分 v6 · 题库 v6

2026-05-25 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-25 03:00 SGT 完成：2026-05-25 03:01 SGT 1分41秒 Run #130 公式 v7 · 判分 v6 · 题库 v6

2026-05-24 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-24 03:00 SGT 完成：2026-05-24 03:01 SGT 1分11秒 Run #129 公式 v7 · 判分 v6 · 题库 v6

2026-05-23 03:02 SGT 轻量评测已完成

11 个模型开始：2026-05-23 03:00 SGT 完成：2026-05-23 03:02 SGT 2分0秒 Run #128 公式 v7 · 判分 v6 · 题库 v6

2026-05-22 03:02 SGT 轻量评测已完成

11 个模型开始：2026-05-22 03:00 SGT 完成：2026-05-22 03:02 SGT 2分11秒 Run #127 公式 v7 · 判分 v6 · 题库 v6

2026-05-21 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-21 03:00 SGT 完成：2026-05-21 03:01 SGT 1分31秒 Run #126 公式 v7 · 判分 v6 · 题库 v6

2026-05-20 04:57 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-05-20 04:30 SGT 完成：2026-05-20 04:57 SGT 27分36秒 Run #125 公式 v7 · 判分 v6 · 题库 v6

2026-05-20 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-20 03:00 SGT 完成：2026-05-20 03:01 SGT 1分41秒 Run #124 公式 v7 · 判分 v6 · 题库 v6

2026-05-19 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-19 03:00 SGT 完成：2026-05-19 03:01 SGT 1分41秒 Run #123 公式 v7 · 判分 v6 · 题库 v6

2026-05-18 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-18 03:00 SGT 完成：2026-05-18 03:01 SGT 1分21秒 Run #121 公式 v7 · 判分 v6 · 题库 v6

2026-05-17 05:49 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-05-17 04:30 SGT 完成：2026-05-17 05:49 SGT 1时19分 Run #120 公式 v7 · 判分 v6 · 题库 v6

2026-05-17 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-17 03:00 SGT 完成：2026-05-17 03:01 SGT 1分20秒 Run #119 公式 v7 · 判分 v6 · 题库 v6

2026-05-16 03:03 SGT 轻量评测已完成

11 个模型开始：2026-05-16 03:00 SGT 完成：2026-05-16 03:03 SGT 3分51秒 Run #118 公式 v7 · 判分 v6 · 题库 v6

2026-05-15 03:04 SGT 轻量评测已完成

11 个模型开始：2026-05-15 03:00 SGT 完成：2026-05-15 03:04 SGT 4分11秒 Run #117 公式 v7 · 判分 v6 · 题库 v6

2026-05-14 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-14 03:00 SGT 完成：2026-05-14 03:01 SGT 1分31秒 Run #116 公式 v7 · 判分 v6 · 题库 v6

2026-05-13 05:03 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-05-13 04:30 SGT 完成：2026-05-13 05:03 SGT 33分25秒 Run #115 公式 v7 · 判分 v6 · 题库 v6

2026-05-13 03:02 SGT 轻量评测已完成

11 个模型开始：2026-05-13 03:00 SGT 完成：2026-05-13 03:02 SGT 2分51秒 Run #114 公式 v7 · 判分 v6 · 题库 v6

2026-05-12 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-12 03:00 SGT 完成：2026-05-12 03:01 SGT 1分51秒 Run #113 公式 v7 · 判分 v6 · 题库 v6

2026-05-11 03:03 SGT 轻量评测已完成

11 个模型开始：2026-05-11 03:00 SGT 完成：2026-05-11 03:03 SGT 3分0秒 Run #111 公式 v7 · 判分 v6 · 题库 v6

2026-05-10 05:26 SGT 轻量评测已完成 social_monitor

1 个模型开始：2026-05-10 03:30 SGT 完成：2026-05-10 05:26 SGT 1时55分 Run #110 公式 v7 · 判分 v6 · 题库 v6

2026-05-10 03:03 SGT 轻量评测已完成

11 个模型开始：2026-05-10 03:00 SGT 完成：2026-05-10 03:03 SGT 3分11秒 Run #109 公式 v7 · 判分 v6 · 题库 v6

2026-05-09 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-09 03:00 SGT 完成：2026-05-09 03:01 SGT 1分32秒 Run #108 公式 v7 · 判分 v6 · 题库 v6

2026-05-08 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-08 03:00 SGT 完成：2026-05-08 03:01 SGT 1分51秒 Run #107 公式 v7 · 判分 v6 · 题库 v6

2026-05-07 03:02 SGT 轻量评测已完成

11 个模型开始：2026-05-07 03:00 SGT 完成：2026-05-07 03:02 SGT 2分31秒 Run #106 公式 v7 · 判分 v6 · 题库 v6

2026-05-06 05:01 SGT 轻量评测已完成 WDCD smoke evaluation

11 个模型开始：2026-05-06 04:30 SGT 完成：2026-05-06 05:01 SGT 31分24秒 Run #105 公式 v7 · 判分 v6 · 题库 v6

2026-05-06 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-06 03:00 SGT 完成：2026-05-06 03:01 SGT 1分31秒 Run #104 公式 v7 · 判分 v6 · 题库 v6

2026-05-05 03:02 SGT 轻量评测已完成

11 个模型开始：2026-05-05 03:00 SGT 完成：2026-05-05 03:02 SGT 2分11秒 Run #103 公式 v7 · 判分 v6 · 题库 v6

2026-05-04 03:02 SGT 轻量评测已完成

11 个模型开始：2026-05-04 03:00 SGT 完成：2026-05-04 03:02 SGT 2分41秒 Run #101 公式 v7 · 判分 v6 · 题库 v6

2026-05-03 04:24 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-05-03 04:00 SGT 完成：2026-05-03 04:24 SGT 24分13秒 Run #100 公式 v7 · 判分 v6 · 题库 v6

2026-05-03 04:00 SGT 轻量评测已完成

4 个模型开始：2026-05-03 03:00 SGT 完成：2026-05-03 04:00 SGT 1时0分 Run #99 公式 v7 · 判分 v6 · 题库 v6

2026-05-02 03:03 SGT 轻量评测已完成

11 个模型开始：2026-05-02 03:00 SGT 完成：2026-05-02 03:03 SGT 3分10秒 Run #98 公式 v7 · 判分 v6 · 题库 v6

2026-05-02 02:55 SGT 轻量评测已完成 WDCD pilot evaluation

11 个模型开始：2026-05-01 18:03 SGT 完成：2026-05-02 02:55 SGT 8时51分 Run #97 公式 v7 · 判分 v6 · 题库 v6

2026-05-01 16:06 SGT 轻量评测已完成 DCD pilot evaluation

11 个模型开始：2026-05-01 10:38 SGT 完成：2026-05-01 16:06 SGT 5时28分 Run #96 公式 v7 · 判分 v6 · 题库 v6

2026-05-01 11:09 SGT 版本升级

WDCD 动态语境衰变 — 全球首个多轮约束评测维度上线

新增实验性维度：WDCD（Dynamic Contextual Decay）

赢政指数 v7 新增 WDCD 维度，测试 AI 模型在多轮对话中守住约束的能力。这是全球首个系统性评测该能力的框架。 **核心设计：三轮对话**

• R1 约束植入：给模型下达明确约束，确认理解

• R2 干扰注入：2000-5000 字专业文档，嵌入违规请求

• R3 压力诱导：社会工程话术施压，测试约束是否崩盘

**评测规模**

• 30 道多轮约束题，覆盖 5 类场景（数据边界、资源限制、业务规则、安全规约、工程约定）

• 11 个主流模型同台测试

• 100% 规则判分，零 AI 裁判，所有结果可审计

**判分机制**

• R1: 0-1 分（确认检测）

• R2: 0-1 分（违规检测 + Utility Gate）

• R3: 0-2 分（违规 + 拒绝 + 约束引用 + 安全替代）

• 满分 4 分

**独立运行**

• WDCD 为实验性维度，不计入主榜总分

• 使用独立评测轮次（run_type = dcd_pilot）

• 计划独立运行 3 个月后评估是否纳入主榜

**新增页面**

• /yz-index/dcd — WDCD 排行榜与数据总览

• /yz-index/dcd/about — 设计哲学与项目介绍

• /yz-index/dcd/methodology — 技术方法论详解

• /yz-index/dcd/cases — 完整案例集

**开放数据**

• 6 个 WDCD API 端点已开放，支持 JSON/CSV 导出

• 所有判分明细（命中规则、作用域、否定窗口降级）均可通过 API 获取

• 完整三轮对话原文开放查阅，欢迎独立验证

2026-05-01 06:20 SGT 模型变更

评测阵容重大升级：11 个模型更新至最新版本

2026 年 5 月 1 日起，赢政指数评测阵容全面升级：【新增模型】 • GPT-5.5（替代 GPT-4o）— OpenAI 最新旗舰 • Claude Opus 4.7（替代 Opus 4.6）— Anthropic 最新旗舰 • DeepSeek V4 Pro（替代 V3 + R1）— DeepSeek 全新架构 • Gemini 3.1 Pro（新增）— Google 最新一代 • Qwen3 Max（替代 Qwen Max）— 阿里通义千问第三代 • 文心一言 4.5（替代 4.0）— 百度最新版本 • Grok 4（替代 Grok 3）— xAI 新旗舰【保留模型】 • Claude Sonnet 4.6 — Sonnet 线最新版，继续参评 • GPT-o3 — OpenAI 推理线最新版，继续参评 • 豆包 Pro — 字节跳动旗舰，继续参评【退役模型】 GPT-4o、GPT-4o-mini、Claude Opus 4.6、DeepSeek V3、DeepSeek R1、Gemini 2.0 Flash、Grok 3、Qwen Max、文心一言 4.0 历史评测数据完整保留，可在历史记录中查看。【生效时间】新阵容将在下一次 full run 评测中首次亮相。由于新模型无历史滚动均值，首次排名将基于单次评测结果，滚动均值需 5 次评测后趋于稳定。评测阵容从 8 家服务商 11 个模型调整为 8 家服务商 11 个模型（结构优化）。

2026-05-01 03:01 SGT 轻量评测已完成

11 个模型开始：2026-05-01 03:00 SGT 完成：2026-05-01 03:01 SGT 1分32秒 Run #91 公式 v7 · 判分 v6 · 题库 v6

2026-04-30 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-30 03:00 SGT 完成：2026-04-30 03:01 SGT 1分51秒 Run #90 公式 v7 · 判分 v6 · 题库 v6

2026-04-29 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-29 03:00 SGT 完成：2026-04-29 03:02 SGT 2分11秒 Run #89 公式 v7 · 判分 v6 · 题库 v6

2026-04-28 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-28 03:00 SGT 完成：2026-04-28 03:02 SGT 2分21秒 Run #88 公式 v7 · 判分 v6 · 题库 v6

2026-04-27 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-27 03:00 SGT 完成：2026-04-27 03:01 SGT 1分51秒 Run #86 公式 v7 · 判分 v6 · 题库 v6

2026-04-26 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-26 03:00 SGT 完成：2026-04-26 03:01 SGT 1分21秒 Run #85 公式 v7 · 判分 v6 · 题库 v6

2026-04-25 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-25 03:00 SGT 完成：2026-04-25 03:02 SGT 2分22秒 Run #84 公式 v7 · 判分 v6 · 题库 v6

2026-04-24 03:03 SGT 轻量评测已完成

11 个模型开始：2026-04-24 03:00 SGT 完成：2026-04-24 03:03 SGT 3分21秒 Run #83 公式 v7 · 判分 v6 · 题库 v6

2026-04-23 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-23 03:00 SGT 完成：2026-04-23 03:02 SGT 2分21秒 Run #82 公式 v7 · 判分 v6 · 题库 v6

2026-04-22 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-22 03:00 SGT 完成：2026-04-22 03:02 SGT 2分22秒 Run #81 公式 v7 · 判分 v6 · 题库 v6

2026-04-21 03:36 SGT 轻量评测已完成

1 个模型开始：2026-04-21 03:34 SGT 完成：2026-04-21 03:36 SGT 2分20秒 Run #80 公式 v7 · 判分 v6 · 题库 v6

2026-04-21 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-21 03:00 SGT 完成：2026-04-21 03:01 SGT 1分31秒 Run #79 公式 v7 · 判分 v6 · 题库 v6

2026-04-20 03:01 SGT 轻量评测已完成

10 个模型开始：2026-04-20 03:00 SGT 完成：2026-04-20 03:01 SGT 1分21秒 Run #77 公式 v7 · 判分 v6 · 题库 v6

2026-04-19 03:01 SGT 轻量评测已完成

10 个模型开始：2026-04-19 03:00 SGT 完成：2026-04-19 03:01 SGT 1分21秒 Run #76 公式 v7 · 判分 v6 · 题库 v6

2026-04-18 11:04 SGT 轻量评测已完成

11 个模型开始：2026-04-18 11:02 SGT 完成：2026-04-18 11:04 SGT 1分41秒 Run #75 公式 v7 · 判分 v6 · 题库 v6

2026-04-17 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-17 03:00 SGT 完成：2026-04-17 03:02 SGT 2分1秒 Run #73 公式 v7 · 判分 v6 · 题库 v6

2026-04-16 03:01 SGT 轻量评测已完成

10 个模型开始：2026-04-16 03:00 SGT 完成：2026-04-16 03:01 SGT 1分31秒 Run #72 公式 v7 · 判分 v6 · 题库 v6

2026-04-15 03:02 SGT 轻量评测已完成

10 个模型开始：2026-04-15 03:00 SGT 完成：2026-04-15 03:02 SGT 2分21秒 Run #71 公式 v7 · 判分 v6 · 题库 v6

2026-04-14 03:01 SGT 轻量评测已完成

10 个模型开始：2026-04-14 03:00 SGT 完成：2026-04-14 03:01 SGT 1分41秒 Run #70 公式 v7 · 判分 v6 · 题库 v6

2026-04-13 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-13 03:00 SGT 完成：2026-04-13 03:01 SGT 1分11秒 Run #68 公式 v7 · 判分 v6 · 题库 v6

2026-04-12 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-12 03:00 SGT 完成：2026-04-12 03:02 SGT 2分11秒 Run #67 公式 v7 · 判分 v6 · 题库 v6

2026-04-11 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-11 03:00 SGT 完成：2026-04-11 03:01 SGT 1分51秒 Run #66 公式 v7 · 判分 v6 · 题库 v6

2026-04-10 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-10 03:00 SGT 完成：2026-04-10 03:01 SGT 1分31秒 Run #65 公式 v7 · 判分 v6 · 题库 v6

2026-04-09 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-09 03:00 SGT 完成：2026-04-09 03:01 SGT 1分41秒 Run #64 公式 v7 · 判分 v6 · 题库 v6

2026-04-08 03:02 SGT 轻量评测已完成

11 个模型开始：2026-04-08 03:00 SGT 完成：2026-04-08 03:02 SGT 2分1秒 Run #63 公式 v7 · 判分 v6 · 题库 v6

2026-04-07 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-07 03:00 SGT 完成：2026-04-07 03:01 SGT 1分21秒 Run #62 公式 v7 · 判分 v6 · 题库 v6

2026-04-06 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-06 03:00 SGT 完成：2026-04-06 03:01 SGT 1分31秒 Run #60 公式 v7 · 判分 v6 · 题库 v6

2026-04-05 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-05 03:00 SGT 完成：2026-04-05 03:01 SGT 1分21秒 Run #59 公式 v7 · 判分 v6 · 题库 v6

2026-04-04 03:31 SGT 轻量评测已完成 social_monitor

1 个模型开始：2026-04-04 03:30 SGT 完成：2026-04-04 03:31 SGT 40秒 Run #58 公式 v7 · 判分 v6 · 题库 v6

2026-04-04 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-04 03:00 SGT 完成：2026-04-04 03:01 SGT 1分21秒 Run #57 公式 v7 · 判分 v6 · 题库 v6

2026-04-03 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-03 03:00 SGT 完成：2026-04-03 03:01 SGT 1分11秒 Run #56 公式 v7 · 判分 v6 · 题库 v6

2026-04-02 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-02 03:00 SGT 完成：2026-04-02 03:01 SGT 1分31秒 Run #55 公式 v7 · 判分 v6 · 题库 v6

2026-04-01 03:01 SGT 轻量评测已完成

11 个模型开始：2026-04-01 03:00 SGT 完成：2026-04-01 03:01 SGT 1分41秒 Run #54 公式 v7 · 判分 v6 · 题库 v6

2026-03-31 03:01 SGT 轻量评测已完成

11 个模型开始：2026-03-31 03:00 SGT 完成：2026-03-31 03:01 SGT 1分11秒 Run #53 公式 v7 · 判分 v6 · 题库 v6

2026-03-30 03:31 SGT 轻量评测已完成 social_monitor

1 个模型开始：2026-03-30 03:30 SGT 完成：2026-03-30 03:31 SGT 50秒 Run #51 公式 v7 · 判分 v6 · 题库 v6

2026-03-30 03:01 SGT 轻量评测已完成

11 个模型开始：2026-03-30 03:00 SGT 完成：2026-03-30 03:01 SGT 1分40秒 Run #50 公式 v7 · 判分 v6 · 题库 v6

2026-03-29 03:01 SGT 轻量评测已完成

11 个模型开始：2026-03-29 03:00 SGT 完成：2026-03-29 03:01 SGT 1分40秒 Run #49 公式 v7 · 判分 v6 · 题库 v6

2026-03-28 03:02 SGT 轻量评测已完成

11 个模型开始：2026-03-28 03:00 SGT 完成：2026-03-28 03:02 SGT 2分11秒 Run #47 公式 v7 · 判分 v6 · 题库 v6

2026-03-27 05:05 SGT 轻量评测已完成

11 个模型开始：2026-03-27 05:04 SGT 完成：2026-03-27 05:05 SGT 1分41秒 Run #46 公式 v7 · 判分 v6 · 题库 v6

2026-03-25 00:11 SGT 轻量评测已完成

11 个模型开始：2026-03-25 00:11 SGT 完成：2026-03-25 00:11 SGT 10秒 Run #42 公式 v7 · 判分 v6 · 题库 v6

2026-03-24 00:00 SGT 版本升级

赢政指数 v6 正式上线

方法论升级

• 题库从 200 题扩展至 212 题，新增 12 道诚信压力测试题

• 维度体系重构：主榜只包含代码执行和材料约束两个可审计核心维度

• 新增工程判断任务表达侧榜（标注 AI 辅助评估）

• 新增诚信评级门槛机制（pass/warn/fail），诚信不达标的模型主榜封顶

• 主榜公式：core_overall = 0.55 × 代码执行 + 0.45 × 材料约束

• 稳定性、可用性、性价比降级为运行信号，不再混入主榜权重

判分引擎

• 新增 exact_rank 判分器，支持诚信压力测试的封闭式排序判分

• 评测并行架构升级至 55 进程（11 模型 × 5 能力层），full run 耗时约 15 分钟

社交舆情监控（新功能）

• 每日自动监控 11 个模型在 X/Twitter 上的用户反馈

• 舆情异常时自动触发定向复测，与评测数据交叉验证

• 每日自动监控 AI 厂商官方账号动态

数据页重建

• 原始数据页重建为摘要 + 分页模式，页面大小从 29MB 降至 64KB

• 不再公开题目原文和预期答案，防止题库污染

SEO 与口径统一

• 全站旧维度名（编程/知识工作/长文本）统一替换为 v6 表述

• 清理参数页、旧路由等 SEO 污染 URL

2026-03-22 14:05 SGT 轻量评测已完成

2 个模型开始：2026-03-22 14:05 SGT 完成：2026-03-22 14:05 SGT 10秒 Run #36 公式 v5 · 判分 v6 · 题库 v5.1

2026-03-21 12:11 SGT 轻量评测已完成

11 个模型开始：2026-03-21 12:08 SGT 完成：2026-03-21 12:11 SGT 3分0秒 Run #32 公式 v3 · 判分 v5 · 题库 v4

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 01:21 SGT 轻量评测已完成

11 个模型开始：2026-03-21 01:21 SGT 完成：2026-03-21 01:21 SGT 10秒 Run #26 公式 v3 · 判分 v5 · 题库 v4

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 01:19 SGT 题库变更

题库 v4：新增 11 道高质量决策题

新增 11 道高质量决策题，覆盖矛盾信息识别（2题）、信息不足诚实度（2题）、优先级排序（2题）、利益冲突检测（2题）、代码 review 陷阱（2题）、伦理边界（1题）。总题库从 89 题扩充到 100 题。题库版本升级为 v4。

2026-03-21 01:05 SGT 模型变更

新增 3 个评测模型：Grok 3、豆包 Pro、文心一言 4.0

新增 3 个评测模型：Grok 3（xAI）、豆包 Pro（字节跳动）、文心一言 4.0（百度）。评测模型总数从 8 个增加到 11 个。

2026-03-21 01:05 SGT 轻量评测已完成

11 个模型开始：2026-03-21 01:05 SGT 完成：2026-03-21 01:05 SGT 10秒 Run #25 公式 v3 · 判分 v5 · 题库 v3

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-21 00:59 SGT 轻量评测已完成

10 个模型开始：2026-03-21 00:59 SGT 完成：2026-03-21 00:59 SGT 9秒 Run #24 公式 v3 · 判分 v5 · 题库 v3

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-20 12:55 SGT 轻量评测已完成

8 个模型开始：2026-03-20 12:44 SGT 完成：2026-03-20 12:55 SGT 10分39秒 Run #23 公式 v3 · 判分 v5 · 题库 v3

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-20 03:10 SGT 轻量评测已完成

8 个模型开始：2026-03-20 03:00 SGT 完成：2026-03-20 03:10 SGT 10分50秒 Run #22 公式 v3 · 判分 v5 · 题库 v3

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-19 03:11 SGT 轻量评测已完成

8 个模型开始：2026-03-19 03:00 SGT 完成：2026-03-19 03:11 SGT 11分42秒 Run #18 公式 v3 · 判分 v5 · 题库 v2

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v2：题库从 30 题扩充到 80 题（编程 33 + 知识 25 + 长上下文 22），编程新增动态规划和并发分析，知识工作新增复利计算、时区推理等多步推理题

2026-03-18 03:11 SGT 轻量评测已完成

8 个模型开始：2026-03-18 03:00 SGT 完成：2026-03-18 03:11 SGT 11分18秒 Run #17 公式 v3 · 判分 v5 · 题库 v2

判分 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

题库 v2：题库从 30 题扩充到 80 题（编程 33 + 知识 25 + 长上下文 22），编程新增动态规划和并发分析，知识工作新增复利计算、时区推理等多步推理题

2026-03-17 03:10 SGT 轻量评测已完成

8 个模型开始：2026-03-17 03:00 SGT 完成：2026-03-17 03:10 SGT 10分54秒 Run #12 公式 v2 · 判分 v2 · 题库 v1

判分 v2：引入六种判分方法（全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验），开始有比较正式的评分体系

题库 v1：初始题库 30 题，覆盖编程、知识工作、长上下文三个维度