YZ Index
Changelog
Version history of the YZ Index evaluation system.
2026-06-13 03:01 SGT
SmokeEvaluation
Completed
2026-06-12 03:01 SGT
SmokeEvaluation
Completed
2026-06-11 13:19 SGT
SmokeEvaluation
Completed
WDCD pilot evaluation
2026-06-11 11:52 SGT
FullEvaluation
Completed
2026-06-11 10:48 SGT
FullEvaluation
Completed
2026-06-11 09:18 SGT
SmokeEvaluation
Completed
WDCD pilot evaluation
2026-06-11 07:33 SGT
FullEvaluation
Completed
2026-06-11 07:14 SGT
SmokeEvaluation
Completed
2026-06-11 03:02 SGT
SmokeEvaluation
Completed
2026-06-10 05:00 SGT
SmokeEvaluation
Completed
WDCD smoke evaluation
2026-06-10 03:01 SGT
SmokeEvaluation
Completed
2026-06-09 03:01 SGT
SmokeEvaluation
Completed
2026-06-08 04:18 SGT
FullEvaluation
Completed
2026-06-08 03:02 SGT
SmokeEvaluation
Completed
2026-06-07 03:02 SGT
SmokeEvaluation
Completed
2026-06-06 19:26 SGT
SmokeEvaluation
Completed
2026-06-06 03:31 SGT
SmokeEvaluation
Completed
social_monitor
2026-06-05 03:01 SGT
SmokeEvaluation
Completed
2026-06-04 03:01 SGT
SmokeEvaluation
Completed
2026-06-03 04:57 SGT
SmokeEvaluation
Completed
WDCD smoke evaluation
2026-06-03 03:01 SGT
SmokeEvaluation
Completed
2026-06-02 03:31 SGT
SmokeEvaluation
Completed
social_monitor
2026-06-02 03:02 SGT
SmokeEvaluation
Completed
2026-06-01 04:17 SGT
FullEvaluation
Completed
2026-06-01 03:02 SGT
SmokeEvaluation
Completed
2026-05-31 05:54 SGT
SmokeEvaluation
Completed
WDCD pilot evaluation
2026-05-31 03:01 SGT
SmokeEvaluation
Completed
2026-05-30 03:01 SGT
SmokeEvaluation
Completed
2026-05-29 03:01 SGT
SmokeEvaluation
Completed
2026-05-28 03:01 SGT
SmokeEvaluation
Completed
2026-05-27 04:54 SGT
SmokeEvaluation
Completed
WDCD smoke evaluation
2026-05-27 03:01 SGT
SmokeEvaluation
Completed
2026-05-26 03:31 SGT
SmokeEvaluation
Completed
social_monitor
2026-05-26 03:01 SGT
SmokeEvaluation
Completed
2026-05-25 04:16 SGT
FullEvaluation
Completed
2026-05-25 03:01 SGT
SmokeEvaluation
Completed
2026-05-24 03:01 SGT
SmokeEvaluation
Completed
2026-05-23 03:02 SGT
SmokeEvaluation
Completed
2026-05-22 03:02 SGT
SmokeEvaluation
Completed
2026-05-21 03:01 SGT
SmokeEvaluation
Completed
2026-05-20 04:57 SGT
SmokeEvaluation
Completed
WDCD smoke evaluation
2026-05-20 03:01 SGT
SmokeEvaluation
Completed
2026-05-19 03:01 SGT
SmokeEvaluation
Completed
2026-05-18 04:18 SGT
FullEvaluation
Completed
2026-05-18 03:01 SGT
SmokeEvaluation
Completed
2026-05-17 05:49 SGT
SmokeEvaluation
Completed
WDCD pilot evaluation
2026-05-17 03:01 SGT
SmokeEvaluation
Completed
2026-05-16 03:03 SGT
SmokeEvaluation
Completed
2026-05-15 03:04 SGT
SmokeEvaluation
Completed
2026-05-14 03:01 SGT
SmokeEvaluation
Completed
2026-05-13 05:03 SGT
SmokeEvaluation
Completed
WDCD smoke evaluation
2026-05-13 03:02 SGT
SmokeEvaluation
Completed
2026-05-12 03:01 SGT
SmokeEvaluation
Completed
2026-05-11 04:21 SGT
FullEvaluation
Completed
2026-05-11 03:03 SGT
SmokeEvaluation
Completed
2026-05-10 05:26 SGT
SmokeEvaluation
Completed
social_monitor
2026-05-10 03:03 SGT
SmokeEvaluation
Completed
2026-05-09 03:01 SGT
SmokeEvaluation
Completed
2026-05-08 03:01 SGT
SmokeEvaluation
Completed
2026-05-07 03:02 SGT
SmokeEvaluation
Completed
2026-05-06 05:01 SGT
SmokeEvaluation
Completed
WDCD smoke evaluation
2026-05-06 03:01 SGT
SmokeEvaluation
Completed
2026-05-05 03:02 SGT
SmokeEvaluation
Completed
2026-05-04 06:00 SGT
FullEvaluation
Completed
2026-05-04 03:02 SGT
SmokeEvaluation
Completed
2026-05-03 04:24 SGT
SmokeEvaluation
Completed
WDCD pilot evaluation
2026-05-03 04:00 SGT
SmokeEvaluation
Completed
2026-05-02 03:03 SGT
SmokeEvaluation
Completed
2026-05-02 02:55 SGT
SmokeEvaluation
Completed
WDCD pilot evaluation
2026-05-01 16:06 SGT
SmokeEvaluation
Completed
DCD pilot evaluation
2026-05-01 11:09 SGT
Version Upgrade
WDCD 动态语境衰变 — 全球首个多轮约束评测维度上线
新增实验性维度:WDCD(Dynamic Contextual Decay)
赢政指数 v7 新增 WDCD 维度,测试 AI 模型在多轮对话中守住约束的能力。这是全球首个系统性评测该能力的框架。 **核心设计:三轮对话**• R1 约束植入:给模型下达明确约束,确认理解
• R2 干扰注入:2000-5000 字专业文档,嵌入违规请求
• R3 压力诱导:社会工程话术施压,测试约束是否崩盘
**评测规模**
• 30 道多轮约束题,覆盖 5 类场景(数据边界、资源限制、业务规则、安全规约、工程约定)
• 11 个主流模型同台测试
• 100% 规则判分,零 AI 裁判,所有结果可审计
**判分机制**
• R1: 0-1 分(确认检测)
• R2: 0-1 分(违规检测 + Utility Gate)
• R3: 0-2 分(违规 + 拒绝 + 约束引用 + 安全替代)
• 满分 4 分
**独立运行**
• WDCD 为实验性维度,不计入主榜总分
• 使用独立评测轮次(run_type = dcd_pilot)
• 计划独立运行 3 个月后评估是否纳入主榜
**新增页面**
• /yz-index/dcd — WDCD 排行榜与数据总览
• /yz-index/dcd/about — 设计哲学与项目介绍
• /yz-index/dcd/methodology — 技术方法论详解
• /yz-index/dcd/cases — 完整案例集
**开放数据**
• 6 个 WDCD API 端点已开放,支持 JSON/CSV 导出
• 所有判分明细(命中规则、作用域、否定窗口降级)均可通过 API 获取
• 完整三轮对话原文开放查阅,欢迎独立验证
2026-05-01 06:20 SGT
Model Change
评测阵容重大升级:11 个模型更新至最新版本
2026 年 5 月 1 日起,赢政指数评测阵容全面升级:
【新增模型】
• GPT-5.5(替代 GPT-4o)— OpenAI 最新旗舰
• Claude Opus 4.7(替代 Opus 4.6)— Anthropic 最新旗舰
• DeepSeek V4 Pro(替代 V3 + R1)— DeepSeek 全新架构
• Gemini 3.1 Pro(新增)— Google 最新一代
• Qwen3 Max(替代 Qwen Max)— 阿里通义千问第三代
• 文心一言 4.5(替代 4.0)— 百度最新版本
• Grok 4(替代 Grok 3)— xAI 新旗舰
【保留模型】
• Claude Sonnet 4.6 — Sonnet 线最新版,继续参评
• GPT-o3 — OpenAI 推理线最新版,继续参评
• 豆包 Pro — 字节跳动旗舰,继续参评
【退役模型】
GPT-4o、GPT-4o-mini、Claude Opus 4.6、DeepSeek V3、DeepSeek R1、Gemini 2.0 Flash、Grok 3、Qwen Max、文心一言 4.0
历史评测数据完整保留,可在历史记录中查看。
【生效时间】
新阵容将在下一次 full run 评测中首次亮相。由于新模型无历史滚动均值,首次排名将基于单次评测结果,滚动均值需 5 次评测后趋于稳定。
评测阵容从 8 家服务商 11 个模型调整为 8 家服务商 11 个模型(结构优化)。
2026-05-01 03:01 SGT
SmokeEvaluation
Completed
2026-04-30 03:01 SGT
SmokeEvaluation
Completed
2026-04-29 03:02 SGT
SmokeEvaluation
Completed
2026-04-28 03:02 SGT
SmokeEvaluation
Completed
2026-04-27 04:18 SGT
FullEvaluation
Completed
2026-04-27 03:01 SGT
SmokeEvaluation
Completed
2026-04-26 03:01 SGT
SmokeEvaluation
Completed
2026-04-25 03:02 SGT
SmokeEvaluation
Completed
2026-04-24 03:03 SGT
SmokeEvaluation
Completed
2026-04-23 03:02 SGT
SmokeEvaluation
Completed
2026-04-22 03:02 SGT
SmokeEvaluation
Completed
2026-04-21 03:36 SGT
SmokeEvaluation
Completed
2026-04-21 03:01 SGT
SmokeEvaluation
Completed
2026-04-20 04:15 SGT
FullEvaluation
Completed
2026-04-20 03:01 SGT
SmokeEvaluation
Completed
2026-04-19 03:01 SGT
SmokeEvaluation
Completed
2026-04-18 11:04 SGT
SmokeEvaluation
Completed
2026-04-17 03:02 SGT
SmokeEvaluation
Completed
2026-04-16 03:01 SGT
SmokeEvaluation
Completed
2026-04-15 03:02 SGT
SmokeEvaluation
Completed
2026-04-14 03:01 SGT
SmokeEvaluation
Completed
2026-04-13 04:19 SGT
FullEvaluation
Completed
2026-04-13 03:01 SGT
SmokeEvaluation
Completed
2026-04-12 03:02 SGT
SmokeEvaluation
Completed
2026-04-11 03:01 SGT
SmokeEvaluation
Completed
2026-04-10 03:01 SGT
SmokeEvaluation
Completed
2026-04-09 03:01 SGT
SmokeEvaluation
Completed
2026-04-08 03:02 SGT
SmokeEvaluation
Completed
2026-04-07 03:01 SGT
SmokeEvaluation
Completed
2026-04-06 04:18 SGT
FullEvaluation
Completed
2026-04-06 03:01 SGT
SmokeEvaluation
Completed
2026-04-05 03:01 SGT
SmokeEvaluation
Completed
2026-04-04 03:31 SGT
SmokeEvaluation
Completed
social_monitor
2026-04-04 03:01 SGT
SmokeEvaluation
Completed
2026-04-03 03:01 SGT
SmokeEvaluation
Completed
2026-04-02 03:01 SGT
SmokeEvaluation
Completed
2026-04-01 03:01 SGT
SmokeEvaluation
Completed
2026-03-31 03:01 SGT
SmokeEvaluation
Completed
2026-03-30 04:16 SGT
FullEvaluation
Completed
2026-03-30 03:31 SGT
SmokeEvaluation
Completed
social_monitor
2026-03-30 03:01 SGT
SmokeEvaluation
Completed
2026-03-29 03:01 SGT
SmokeEvaluation
Completed
2026-03-28 03:02 SGT
SmokeEvaluation
Completed
2026-03-27 05:05 SGT
SmokeEvaluation
Completed
2026-03-25 00:12 SGT
FullEvaluation
Completed
2026-03-25 00:11 SGT
SmokeEvaluation
Completed
2026-03-24 16:44 SGT
FullEvaluation
Completed
2026-03-24 15:50 SGT
FullEvaluation
Completed
migration
2026-03-24 15:31 SGT
FullEvaluation
Completed
migration
2026-03-24 15:23 SGT
FullEvaluation
Completed
migration
2026-03-24 00:00 SGT
Version Upgrade
赢政指数 v6 正式上线
方法论升级
• 题库从 200 题扩展至 212 题,新增 12 道诚信压力测试题
• 维度体系重构:主榜只包含
代码执行和材料约束两个可审计核心维度• 新增
工程判断任务表达侧榜(标注 AI 辅助评估)• 新增
诚信评级门槛机制(pass/warn/fail),诚信不达标的模型主榜封顶• 主榜公式:core_overall = 0.55 × 代码执行 + 0.45 × 材料约束
• 稳定性、可用性、性价比降级为运行信号,不再混入主榜权重
判分引擎
• 新增 exact_rank 判分器,支持诚信压力测试的封闭式排序判分
• 评测并行架构升级至 55 进程(11 模型 × 5 能力层),full run 耗时约 15 分钟
社交舆情监控(新功能)
• 每日自动监控 11 个模型在 X/Twitter 上的用户反馈
• 舆情异常时自动触发定向复测,与评测数据交叉验证
• 每日自动监控 AI 厂商官方账号动态
数据页重建
• 原始数据页重建为摘要 + 分页模式,页面大小从 29MB 降至 64KB
• 不再公开题目原文和预期答案,防止题库污染
SEO 与口径统一
• 全站旧维度名(编程/知识工作/长文本)统一替换为 v6 表述
• 清理参数页、旧路由等 SEO 污染 URL
2026-03-22 14:26 SGT
FullEvaluation
Completed
2026-03-22 14:05 SGT
SmokeEvaluation
Completed
2026-03-22 11:38 SGT
FullEvaluation
Completed
migration
2026-03-21 14:09 SGT
FullEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v4:题库从 89 题扩充到 100 题(编程 33 + 知识 45 + 长上下文 22),新增 11 道高质量决策题,覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界
2026-03-21 13:29 SGT
FullEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v4:题库从 89 题扩充到 100 题(编程 33 + 知识 45 + 长上下文 22),新增 11 道高质量决策题,覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界
2026-03-21 12:11 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v4:题库从 89 题扩充到 100 题(编程 33 + 知识 45 + 长上下文 22),新增 11 道高质量决策题,覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界
2026-03-21 09:55 SGT
FullEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v4:题库从 89 题扩充到 100 题(编程 33 + 知识 45 + 长上下文 22),新增 11 道高质量决策题,覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界
2026-03-21 07:53 SGT
FullEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v4:题库从 89 题扩充到 100 题(编程 33 + 知识 45 + 长上下文 22),新增 11 道高质量决策题,覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界
2026-03-21 04:24 SGT
FullEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v4:题库从 89 题扩充到 100 题(编程 33 + 知识 45 + 长上下文 22),新增 11 道高质量决策题,覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界
2026-03-21 01:21 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v4:题库从 89 题扩充到 100 题(编程 33 + 知识 45 + 长上下文 22),新增 11 道高质量决策题,覆盖矛盾信息识别、信息不足诚实度、优先级排序、利益冲突检测、代码 review 陷阱、伦理边界
2026-03-21 01:19 SGT
Benchmark Change
题库 v4:新增 11 道高质量决策题
新增 11 道高质量决策题,覆盖矛盾信息识别(2题)、信息不足诚实度(2题)、优先级排序(2题)、利益冲突检测(2题)、代码 review 陷阱(2题)、伦理边界(1题)。总题库从 89 题扩充到 100 题。题库版本升级为 v4。
2026-03-21 01:05 SGT
Model Change
新增 3 个评测模型:Grok 3、豆包 Pro、文心一言 4.0
新增 3 个评测模型:Grok 3(xAI)、豆包 Pro(字节跳动)、文心一言 4.0(百度)。评测模型总数从 8 个增加到 11 个。
2026-03-21 01:05 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v3:题库从 80 题扩充到 89 题(编程 33 + 知识 34 + 长上下文 22),知识工作新增工程判断力题组(9 题),覆盖技术选型、架构权衡、故障排查等实战场景
2026-03-21 00:59 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v3:题库从 80 题扩充到 89 题(编程 33 + 知识 34 + 长上下文 22),知识工作新增工程判断力题组(9 题),覆盖技术选型、架构权衡、故障排查等实战场景
2026-03-20 12:55 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v3:题库从 80 题扩充到 89 题(编程 33 + 知识 34 + 长上下文 22),知识工作新增工程判断力题组(9 题),覆盖技术选型、架构权衡、故障排查等实战场景
2026-03-20 03:10 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v3:题库从 80 题扩充到 89 题(编程 33 + 知识 34 + 长上下文 22),知识工作新增工程判断力题组(9 题),覆盖技术选型、架构权衡、故障排查等实战场景
2026-03-19 09:57 SGT
FullEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v3:题库从 80 题扩充到 89 题(编程 33 + 知识 34 + 长上下文 22),知识工作新增工程判断力题组(9 题),覆盖技术选型、架构权衡、故障排查等实战场景
2026-03-19 03:11 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v2:题库从 30 题扩充到 80 题(编程 33 + 知识 25 + 长上下文 22),编程新增动态规划和并发分析,知识工作新增复利计算、时区推理等多步推理题
2026-03-18 03:11 SGT
SmokeEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v2:题库从 30 题扩充到 80 题(编程 33 + 知识 25 + 长上下文 22),编程新增动态规划和并发分析,知识工作新增复利计算、时区推理等多步推理题
2026-03-18 01:19 SGT
FullEvaluation
Completed
Judge v5:引入严格判分分层(strict/non-strict):新增 4 种严格判分类型(exact_rank、exact_boolean_set、exact_numeric_set、exact_json_value),严格题只给 0 或 100 不给部分分。排名题、True/False 判断题、单值数值题等标记为 strict=true
Benchmark v2:题库从 30 题扩充到 80 题(编程 33 + 知识 25 + 长上下文 22),编程新增动态规划和并发分析,知识工作新增复利计算、时区推理等多步推理题
2026-03-17 11:23 SGT
FullEvaluation
Completed
Judge v4:评分规则微调,配合题库 v2 的新增题目补充对应的判分逻辑
Benchmark v2:题库从 30 题扩充到 80 题(编程 33 + 知识 25 + 长上下文 22),编程新增动态规划和并发分析,知识工作新增复利计算、时区推理等多步推理题
本次为版本迁移运行,同时升级了公式版本(v2→v3)、判分器版本(v3→v4)、题库版本(v1→v2, 30题→80题)。后续正常周评测将在同一版本下进行。
2026-03-17 09:27 SGT
FullEvaluation
Completed
Judge v3:收紧评分标准:JSON 校验开始检查嵌套字段是否正确,部分命中从"命中一个就给高分"改成按比例计分,同时给部分题目加了多种可接受的正确答案
Benchmark v1:初始题库 30 题,覆盖编程、知识工作、长上下文三个维度
2026-03-17 03:13 SGT
FullEvaluation
Completed
Judge v2:引入六种判分方法(全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验),开始有比较正式的评分体系
Benchmark v1:初始题库 30 题,覆盖编程、知识工作、长上下文三个维度
2026-03-17 03:10 SGT
SmokeEvaluation
Completed
Judge v2:引入六种判分方法(全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验),开始有比较正式的评分体系
Benchmark v1:初始题库 30 题,覆盖编程、知识工作、长上下文三个维度
2026-03-17 02:12 SGT
FullEvaluation
Completed
Judge v2:引入六种判分方法(全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验),开始有比较正式的评分体系
Benchmark v1:初始题库 30 题,覆盖编程、知识工作、长上下文三个维度
2026-03-17 00:45 SGT
FullEvaluation
Completed
Judge v2:引入六种判分方法(全部命中、部分命中、精确匹配、正则、顺序匹配、JSON 结构校验),开始有比较正式的评分体系
Benchmark v1:初始题库 30 题,覆盖编程、知识工作、长上下文三个维度