更新ログ — YZ指数

2026-04-29 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-29 03:00 SGT 完了：2026-04-29 03:02 SGT 2分11秒 Run #89 公式 v7 · 判定 v6 · 題庫 v6

2026-04-28 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-28 03:00 SGT 完了：2026-04-28 03:02 SGT 2分21秒 Run #88 公式 v7 · 判定 v6 · 題庫 v6

2026-04-27 04:18 SGT 完全評価完了

11 個モデル開始：2026-04-27 04:00 SGT 完了：2026-04-27 04:18 SGT 18分17秒 Run #87 公式 v7 · 判定 v6 · 題庫 v6

2026-04-27 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-27 03:00 SGT 完了：2026-04-27 03:01 SGT 1分51秒 Run #86 公式 v7 · 判定 v6 · 題庫 v6

2026-04-26 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-26 03:00 SGT 完了：2026-04-26 03:01 SGT 1分21秒 Run #85 公式 v7 · 判定 v6 · 題庫 v6

2026-04-25 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-25 03:00 SGT 完了：2026-04-25 03:02 SGT 2分22秒 Run #84 公式 v7 · 判定 v6 · 題庫 v6

2026-04-24 03:03 SGT 軽量評価完了

11 個モデル開始：2026-04-24 03:00 SGT 完了：2026-04-24 03:03 SGT 3分21秒 Run #83 公式 v7 · 判定 v6 · 題庫 v6

2026-04-23 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-23 03:00 SGT 完了：2026-04-23 03:02 SGT 2分21秒 Run #82 公式 v7 · 判定 v6 · 題庫 v6

2026-04-22 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-22 03:00 SGT 完了：2026-04-22 03:02 SGT 2分22秒 Run #81 公式 v7 · 判定 v6 · 題庫 v6

2026-04-21 03:36 SGT 軽量評価完了

1 個モデル開始：2026-04-21 03:34 SGT 完了：2026-04-21 03:36 SGT 2分20秒 Run #80 公式 v7 · 判定 v6 · 題庫 v6

2026-04-21 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-21 03:00 SGT 完了：2026-04-21 03:01 SGT 1分31秒 Run #79 公式 v7 · 判定 v6 · 題庫 v6

2026-04-20 04:15 SGT 完全評価完了

10 個モデル開始：2026-04-20 04:00 SGT 完了：2026-04-20 04:15 SGT 15分31秒 Run #78 公式 v7 · 判定 v6 · 題庫 v6

2026-04-20 03:01 SGT 軽量評価完了

10 個モデル開始：2026-04-20 03:00 SGT 完了：2026-04-20 03:01 SGT 1分21秒 Run #77 公式 v7 · 判定 v6 · 題庫 v6

2026-04-19 03:01 SGT 軽量評価完了

10 個モデル開始：2026-04-19 03:00 SGT 完了：2026-04-19 03:01 SGT 1分21秒 Run #76 公式 v7 · 判定 v6 · 題庫 v6

2026-04-18 11:04 SGT 軽量評価完了

11 個モデル開始：2026-04-18 11:02 SGT 完了：2026-04-18 11:04 SGT 1分41秒 Run #75 公式 v7 · 判定 v6 · 題庫 v6

2026-04-17 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-17 03:00 SGT 完了：2026-04-17 03:02 SGT 2分1秒 Run #73 公式 v7 · 判定 v6 · 題庫 v6

2026-04-16 03:01 SGT 軽量評価完了

10 個モデル開始：2026-04-16 03:00 SGT 完了：2026-04-16 03:01 SGT 1分31秒 Run #72 公式 v7 · 判定 v6 · 題庫 v6

2026-04-15 03:02 SGT 軽量評価完了

10 個モデル開始：2026-04-15 03:00 SGT 完了：2026-04-15 03:02 SGT 2分21秒 Run #71 公式 v7 · 判定 v6 · 題庫 v6

2026-04-14 03:01 SGT 軽量評価完了

10 個モデル開始：2026-04-14 03:00 SGT 完了：2026-04-14 03:01 SGT 1分41秒 Run #70 公式 v7 · 判定 v6 · 題庫 v6

2026-04-13 04:19 SGT 完全評価完了

11 個モデル開始：2026-04-13 04:00 SGT 完了：2026-04-13 04:19 SGT 19分46秒 Run #69 公式 v7 · 判定 v6 · 題庫 v6

2026-04-13 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-13 03:00 SGT 完了：2026-04-13 03:01 SGT 1分11秒 Run #68 公式 v7 · 判定 v6 · 題庫 v6

2026-04-12 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-12 03:00 SGT 完了：2026-04-12 03:02 SGT 2分11秒 Run #67 公式 v7 · 判定 v6 · 題庫 v6

2026-04-11 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-11 03:00 SGT 完了：2026-04-11 03:01 SGT 1分51秒 Run #66 公式 v7 · 判定 v6 · 題庫 v6

2026-04-10 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-10 03:00 SGT 完了：2026-04-10 03:01 SGT 1分31秒 Run #65 公式 v7 · 判定 v6 · 題庫 v6

2026-04-09 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-09 03:00 SGT 完了：2026-04-09 03:01 SGT 1分41秒 Run #64 公式 v7 · 判定 v6 · 題庫 v6

2026-04-08 03:02 SGT 軽量評価完了

11 個モデル開始：2026-04-08 03:00 SGT 完了：2026-04-08 03:02 SGT 2分1秒 Run #63 公式 v7 · 判定 v6 · 題庫 v6

2026-04-07 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-07 03:00 SGT 完了：2026-04-07 03:01 SGT 1分21秒 Run #62 公式 v7 · 判定 v6 · 題庫 v6

2026-04-06 04:18 SGT 完全評価完了

11 個モデル開始：2026-04-06 04:00 SGT 完了：2026-04-06 04:18 SGT 18分47秒 Run #61 公式 v7 · 判定 v6 · 題庫 v6

2026-04-06 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-06 03:00 SGT 完了：2026-04-06 03:01 SGT 1分31秒 Run #60 公式 v7 · 判定 v6 · 題庫 v6

2026-04-05 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-05 03:00 SGT 完了：2026-04-05 03:01 SGT 1分21秒 Run #59 公式 v7 · 判定 v6 · 題庫 v6

2026-04-04 03:31 SGT 軽量評価完了 social_monitor

1 個モデル開始：2026-04-04 03:30 SGT 完了：2026-04-04 03:31 SGT 40秒 Run #58 公式 v7 · 判定 v6 · 題庫 v6

2026-04-04 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-04 03:00 SGT 完了：2026-04-04 03:01 SGT 1分21秒 Run #57 公式 v7 · 判定 v6 · 題庫 v6

2026-04-03 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-03 03:00 SGT 完了：2026-04-03 03:01 SGT 1分11秒 Run #56 公式 v7 · 判定 v6 · 題庫 v6

2026-04-02 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-02 03:00 SGT 完了：2026-04-02 03:01 SGT 1分31秒 Run #55 公式 v7 · 判定 v6 · 題庫 v6

2026-04-01 03:01 SGT 軽量評価完了

11 個モデル開始：2026-04-01 03:00 SGT 完了：2026-04-01 03:01 SGT 1分41秒 Run #54 公式 v7 · 判定 v6 · 題庫 v6

2026-03-31 03:01 SGT 軽量評価完了

11 個モデル開始：2026-03-31 03:00 SGT 完了：2026-03-31 03:01 SGT 1分11秒 Run #53 公式 v7 · 判定 v6 · 題庫 v6

2026-03-30 04:16 SGT 完全評価完了

11 個モデル開始：2026-03-30 04:00 SGT 完了：2026-03-30 04:16 SGT 16分17秒 Run #52 公式 v7 · 判定 v6 · 題庫 v6

2026-03-30 03:31 SGT 軽量評価完了 social_monitor

1 個モデル開始：2026-03-30 03:30 SGT 完了：2026-03-30 03:31 SGT 50秒 Run #51 公式 v7 · 判定 v6 · 題庫 v6

2026-03-30 03:01 SGT 軽量評価完了

11 個モデル開始：2026-03-30 03:00 SGT 完了：2026-03-30 03:01 SGT 1分40秒 Run #50 公式 v7 · 判定 v6 · 題庫 v6

2026-03-29 03:01 SGT 軽量評価完了

11 個モデル開始：2026-03-29 03:00 SGT 完了：2026-03-29 03:01 SGT 1分40秒 Run #49 公式 v7 · 判定 v6 · 題庫 v6

2026-03-28 03:02 SGT 軽量評価完了

11 個モデル開始：2026-03-28 03:00 SGT 完了：2026-03-28 03:02 SGT 2分11秒 Run #47 公式 v7 · 判定 v6 · 題庫 v6

2026-03-27 05:05 SGT 軽量評価完了

11 個モデル開始：2026-03-27 05:04 SGT 完了：2026-03-27 05:05 SGT 1分41秒 Run #46 公式 v7 · 判定 v6 · 題庫 v6

2026-03-25 00:12 SGT 完全評価完了

11 個モデル開始：2026-03-25 00:11 SGT 完了：2026-03-25 00:12 SGT 16秒 Run #43 公式 v7 · 判定 v6 · 題庫 v6

2026-03-25 00:11 SGT 軽量評価完了

11 個モデル開始：2026-03-25 00:11 SGT 完了：2026-03-25 00:11 SGT 10秒 Run #42 公式 v7 · 判定 v6 · 題庫 v6

2026-03-24 16:44 SGT 完全評価完了

11 個モデル開始：2026-03-24 16:29 SGT 完了：2026-03-24 16:44 SGT 15分31秒 Run #41 公式 v7 · 判定 v6 · 題庫 v6

2026-03-24 15:50 SGT 完全評価完了 migration

11 個モデル開始：2026-03-24 15:32 SGT 完了：2026-03-24 15:50 SGT 17分31秒 Run #40 公式 v7 · 判定 v6 · 題庫 v6

2026-03-24 15:31 SGT 完全評価完了 migration

11 個モデル開始：2026-03-24 15:31 SGT 完了：2026-03-24 15:31 SGT 16秒 Run #39 公式 v7 · 判定 v6 · 題庫 v6

2026-03-24 15:23 SGT 完全評価完了 migration

11 個モデル開始：2026-03-24 15:22 SGT 完了：2026-03-24 15:23 SGT 30秒 Run #38 公式 v7 · 判定 v6 · 題庫 v6

2026-03-24 00:00 SGT バージョンアップグレード

赢政指数 v6 正式上线

方法论升级

• 题库从 200 题扩展至 212 题，新增 12 道诚信压力测试题

• 维度体系重构：主榜只包含代码执行和材料约束两个可审计核心维度

• 新增工程判断任务表达侧榜（标注 AI 辅助评估）

• 新增诚信评级门槛机制（pass/warn/fail），诚信不达标的模型主榜封顶

• 主榜公式：core_overall = 0.55 × 代码执行 + 0.45 × 材料约束

• 稳定性、可用性、性价比降级为运行信号，不再混入主榜权重

判分引擎

• 新增 exact_rank 判分器，支持诚信压力测试的封闭式排序判分

• 评测并行架构升级至 55 进程（11 模型 × 5 能力层），full run 耗时约 15 分钟

社交舆情监控（新功能）

• 每日自动监控 11 个模型在 X/Twitter 上的用户反馈

• 舆情异常时自动触发定向复测，与评测数据交叉验证

• 每日自动监控 AI 厂商官方账号动态

数据页重建

• 原始数据页重建为摘要 + 分页模式，页面大小从 29MB 降至 64KB

• 不再公开题目原文和预期答案，防止题库污染

SEO 与口径统一

• 全站旧维度名（编程/知识工作/长文本）统一替换为 v6 表述

• 清理参数页、旧路由等 SEO 污染 URL

2026-03-22 14:26 SGT 完全評価完了

11 個モデル開始：2026-03-22 14:05 SGT 完了：2026-03-22 14:26 SGT 20分16秒 Run #37 公式 v5 · 判定 v6 · 題庫 v5.1

2026-03-22 14:05 SGT 軽量評価完了

2 個モデル開始：2026-03-22 14:05 SGT 完了：2026-03-22 14:05 SGT 10秒 Run #36 公式 v5 · 判定 v6 · 題庫 v5.1

2026-03-22 11:38 SGT 完全評価完了 migration

11 個モデル開始：2026-03-22 10:44 SGT 完了：2026-03-22 11:38 SGT 53分30秒 Run #35 公式 v5 · 判定 v6 · 題庫 v5.1

2026-03-21 14:09 SGT 完全評価完了

11 個モデル開始：2026-03-21 13:35 SGT 完了：2026-03-21 14:09 SGT 33分30秒 Run #33 公式 v3 · 判定 v5 · 題庫 v4

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 13:29 SGT 完全評価完了

11 個モデル開始：2026-03-21 10:09 SGT 完了：2026-03-21 13:29 SGT 3時間20分 Run #31 公式 v3 · 判定 v5 · 題庫 v4

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 12:11 SGT 軽量評価完了

11 個モデル開始：2026-03-21 12:08 SGT 完了：2026-03-21 12:11 SGT 3分0秒 Run #32 公式 v3 · 判定 v5 · 題庫 v4

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 09:55 SGT 完全評価完了

4 個モデル開始：2026-03-21 08:05 SGT 完了：2026-03-21 09:55 SGT 1時間50分 Run #30 公式 v3 · 判定 v5 · 題庫 v4

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 07:53 SGT 完全評価完了

9 個モデル開始：2026-03-21 04:57 SGT 完了：2026-03-21 07:53 SGT 2時間56分 Run #29 公式 v3 · 判定 v5 · 題庫 v4

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 04:24 SGT 完全評価完了

9 個モデル開始：2026-03-21 01:30 SGT 完了：2026-03-21 04:24 SGT 2時間53分 Run #27 公式 v3 · 判定 v5 · 題庫 v4

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 01:21 SGT 軽量評価完了

11 個モデル開始：2026-03-21 01:21 SGT 完了：2026-03-21 01:21 SGT 10秒 Run #26 公式 v3 · 判定 v5 · 題庫 v4

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v4：题库从 89 题扩充到 100 题（编程 33 + 知识 45 + 长上下文 22），新增 11 道高质量决策题，覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界

2026-03-21 01:19 SGT ベンチマーク変更

题库 v4：新增 11 道高质量决策题

新增 11 道高质量决策题，覆盖矛盾信息识别（2题）、信息不足诚实度（2题）、优先级排序（2题）、利益冲突检测（2题）、代码 review 陷阱（2题）、伦理边界（1题）。总题库从 89 题扩充到 100 题。题库版本升级为 v4。

2026-03-21 01:05 SGT モデル変更

新增 3 个评测模型：Grok 3、豆包 Pro、文心一言 4.0

新增 3 个评测模型：Grok 3（xAI）、豆包 Pro（字节跳动）、文心一言 4.0（百度）。评测模型总数从 8 个增加到 11 个。

2026-03-21 01:05 SGT 軽量評価完了

11 個モデル開始：2026-03-21 01:05 SGT 完了：2026-03-21 01:05 SGT 10秒 Run #25 公式 v3 · 判定 v5 · 題庫 v3

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-21 00:59 SGT 軽量評価完了

10 個モデル開始：2026-03-21 00:59 SGT 完了：2026-03-21 00:59 SGT 9秒 Run #24 公式 v3 · 判定 v5 · 題庫 v3

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-20 12:55 SGT 軽量評価完了

8 個モデル開始：2026-03-20 12:44 SGT 完了：2026-03-20 12:55 SGT 10分39秒 Run #23 公式 v3 · 判定 v5 · 題庫 v3

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-20 03:10 SGT 軽量評価完了

8 個モデル開始：2026-03-20 03:00 SGT 完了：2026-03-20 03:10 SGT 10分50秒 Run #22 公式 v3 · 判定 v5 · 題庫 v3

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-19 09:57 SGT 完全評価完了

8 個モデル開始：2026-03-19 08:07 SGT 完了：2026-03-19 09:57 SGT 1時間49分 Run #20 公式 v3 · 判定 v5 · 題庫 v3

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v3：题库从 80 题扩充到 89 题（编程 33 + 知识 34 + 长上下文 22），知识工作新增工程判断力题组（9 题），覆盖技术选型、架构权衡、故障排查等实战场景

2026-03-19 03:11 SGT 軽量評価完了

8 個モデル開始：2026-03-19 03:00 SGT 完了：2026-03-19 03:11 SGT 11分42秒 Run #18 公式 v3 · 判定 v5 · 題庫 v2

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v2：题库从 30 题扩充到 80 题（编程 33 + 知识 25 + 长上下文 22），编程新增动态规划和并发分析，知识工作新增复利计算、时区推理等多步推理题

2026-03-18 03:11 SGT 軽量評価完了

8 個モデル開始：2026-03-18 03:00 SGT 完了：2026-03-18 03:11 SGT 11分18秒 Run #17 公式 v3 · 判定 v5 · 題庫 v2

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v2：题库从 30 题扩充到 80 题（编程 33 + 知识 25 + 长上下文 22），编程新增动态规划和并发分析，知识工作新增复利计算、时区推理等多步推理题

2026-03-18 01:19 SGT 完全評価完了

8 個モデル開始：2026-03-17 23:24 SGT 完了：2026-03-18 01:19 SGT 1時間55分 Run #16 公式 v3 · 判定 v5 · 題庫 v2

判定 v5：引入严格判分分层（strict/non-strict）：新增 4 种严格判分类型（exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value），严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true

題庫 v2：题库从 30 题扩充到 80 题（编程 33 + 知识 25 + 长上下文 22），编程新增动态规划和并发分析，知识工作新增复利计算、时区推理等多步推理题

2026-03-17 11:23 SGT 完全評価完了

8 個モデル開始：2026-03-17 09:43 SGT 完了：2026-03-17 11:23 SGT 1時間40分 Run #15 公式 v3 · 判定 v4 · 題庫 v2

判定 v4：评分规则微调，配合题库 v2 的新增题目补充对应的判分逻辑

題庫 v2：题库从 30 题扩充到 80 题（编程 33 + 知识 25 + 长上下文 22），编程新增动态规划和并发分析，知识工作新增复利计算、时区推理等多步推理题

本次为版本迁移运行，同时升级了公式版本(v2→v3)、判分器版本(v3→v4)、题库版本(v1→v2, 30题→80题)。后续正常周评测将在同一版本下进行。

2026-03-17 09:27 SGT 完全評価完了

8 個モデル開始：2026-03-17 07:51 SGT 完了：2026-03-17 09:27 SGT 1時間35分 Run #14 公式 v2 · 判定 v3 · 題庫 v1

判定 v3：收紧评分标准：JSON 校验开始检查嵌套字段是否正确，部分命中从"命中一个就给高分"改成按比例计分，同时给部分题目加了多种可接受的正确答案

題庫 v1：初始题库 30 题，覆盖编程、知识工作、长上下文三个维度

2026-03-17 03:13 SGT 完全評価完了

8 個モデル開始：2026-03-17 02:32 SGT 完了：2026-03-17 03:13 SGT 40分31秒 Run #11 公式 v2 · 判定 v2 · 題庫 v1

判定 v2：引入六种判分方法（全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验），开始有比较正式的评分体系

題庫 v1：初始题库 30 题，覆盖编程、知识工作、长上下文三个维度

2026-03-17 03:10 SGT 軽量評価完了

8 個モデル開始：2026-03-17 03:00 SGT 完了：2026-03-17 03:10 SGT 10分54秒 Run #12 公式 v2 · 判定 v2 · 題庫 v1

判定 v2：引入六种判分方法（全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验），开始有比较正式的评分体系

題庫 v1：初始题库 30 题，覆盖编程、知识工作、长上下文三个维度

2026-03-17 02:12 SGT 完全評価完了

8 個モデル開始：2026-03-17 01:33 SGT 完了：2026-03-17 02:12 SGT 39分0秒 Run #10 公式 v2 · 判定 v2 · 題庫 v1

判定 v2：引入六种判分方法（全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验），开始有比较正式的评分体系

題庫 v1：初始题库 30 题，覆盖编程、知识工作、长上下文三个维度

2026-03-17 00:45 SGT 完全評価完了

8 個モデル開始：2026-03-16 23:58 SGT 完了：2026-03-17 00:45 SGT 47分30秒 Run #9 公式 v2 · 判定 v2 · 題庫 v1

判定 v2：引入六种判分方法（全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验），开始有比较正式的评分体系

題庫 v1：初始题库 30 题，覆盖编程、知识工作、长上下文三个维度