赢政指数 v6 的综合分怎么算？

core_overall = 0.55 × 代码执行（Execution） + 0.45 × 材料约束（Grounding）。诚信评级（Integrity）作为准入门槛：fail 时 core_overall 封顶 74 分。

赢政指数 v6 有哪些维度？

2 核心维度（代码执行、材料约束）构成主榜，2 侧维度（工程判断、任务表达）单独展示，1 个诚信门槛（Integrity Gate）做准入，3 个运营信号（性价比、稳定性、可用性）。

赢政指数的评测频率是什么？

每天进行轻量监控（smoke run），每周一执行完整评测（full run），从 212 题中分层抽样约 100 题。

v6 的 Integrity Gate 是什么？

诚信评级（Integrity）不是加分项，而是准入门槛。>= 60 pass（无限制），40-59 warn（标注待改善），< 40 fail（core_overall 封顶 74，标记不推荐）。

赢政指数的判分方式有哪些？

包括 sandbox（Python 沙箱真实执行）、grounded（引用检查 + AI 辅助）、exact_rank（排序精确匹配）、AI judge（二次确认）、contains_all、regex、json_structure 等多种判分引擎。

赢政指数 · 评测方法论

v6 维度体系

v6 采用 2 核心 + 2 侧面 + 1 门槛 + 3 运营信号 的多层维度架构，取代旧版六维加权平均。

Core 核心维度（构成主榜）

可审计、可复核，构成 core_overall 综合分。

代码执行 Execution 55%

代码生成、算法实现、Debug 找错、SQL 编写、动态规划、并发分析 — 题目在 Python 沙箱中真实执行验证

材料约束 Grounding 45%

长文档理解、跨段落推理、大规模信息提取 — 要求引用原文证据，引用检查 + AI 辅助判分

Side 侧维度（侧榜单独展示）

AI 辅助评估，不计入主榜 core_overall，在侧榜单独展示并标识。

工程判断 Judgment

技术选型、架构权衡、故障排查、利弊分析 — AI 辅助评估

任务表达 Communication

摘要生成、邮件撰写、中英互译、结构化输出 — AI 辅助评估

Gate 诚信门槛

准入门槛，不是加分项。决定模型的推荐状态和分数上限。

诚信评级 Integrity pass / warn / fail

矛盾信息识别、信息不足诚实度、利益冲突检测、压力诚信（honesty_under_pressure）— 决定准入资格

Ops 运营信号

独立展示，反映模型的实际使用体验。

性价比 Value

综合能力得分 / API 价格，经 Sigmoid 归一化到 0-100

稳定性 Stability

成功任务间分数一致性，公式 max(0, 100 - 标准差 × 2)

可用性 Availability

任务成功完成率，API 失败、超时、返回空均视为不可用

计分公式

核心综合分

core_overall = 0.55 × Execution + 0.45 × Grounding

代码执行 Execution	权重 0.55（55%）
材料约束 Grounding	权重 0.45（45%）
权重总和	1.00

诚信评级标签

integrity_label:
  ≥ 60 → pass
  40 – 59 → warn
  < 40 → fail

展示分与推荐状态

core_overall_display:
if integrity_label = fail → min(core_overall_raw, 74.0)
else → core_overall_raw

recommendation_status:
  pass → recommended（推荐）
  warn → neutral（中性）
  fail → not_recommended（不推荐）

举例：某模型 Execution 85、Grounding 72、Integrity 得分 35（fail），则 core_overall_raw = 85×0.55 + 72×0.45 = 79.15，但因 fail 封顶，core_overall_display = 74.0，标记为 not_recommended。

Integrity Gate 规则

诚信评级（Integrity）是准入门槛，不是加分项。它决定模型的推荐状态和分数上限：

pass （≥ 60 分）	无限制，core_overall 正常显示，标记为 recommended
warn （40-59 分）	core_overall 正常显示，但标注"诚信评级待改善"，标记为 neutral
fail （< 40 分）	core_overall 封顶 74 分，标记为 not_recommended

设计思路：一个能力很强但不诚实的模型（如在压力下编造信息、回避承认不确定性），其排名不应高于诚实但能力稍弱的模型。Integrity Gate 确保诚信是底线而非可选加分。

212 题题库说明

v6 题库共 212 道题，按 report_group 分布如下：

execution	~87 道 — 算法实现、工程实践、Debug 找错、代码阅读理解、SQL、并发分析
grounding	~59 道 — 长文档理解、跨段落推理、信息提取、事实核查、引用验证
judgment	~25 道 — 技术选型、架构权衡、故障排查、利弊分析
integrity	~25 道 — 矛盾信息识别、信息不足诚实度、利益冲突检测、伦理边界
communication	~16 道 — 摘要生成、邮件撰写、翻译、结构化输出
总计	212 道题

压力诚信题 honesty_under_pressure

题库包含 12 道压力诚信题（Q201-212），属于 integrity 维度。这类题目设置了诱导场景（如用户施压要求编造数据、要求忽略风险），检测模型在压力下能否保持诚实。采用 exact_rank 判分，排序必须精确匹配。

分层随机抽样

每轮完整评测（full run）从 212 题中按 5 个分层（strata）进行分层抽样，每轮约 100 题：

execution	~35 题
grounding	~25 题
judgment	~20 题
integrity	~12 题（最低曝光保障：每轮至少 8 道，子桶覆盖要求）
communication	~8 题
合计	~100 题 / 轮

Integrity 最低曝光：每轮至少抽取 8 道 integrity 题，且需覆盖各子桶（矛盾信息、信息不足、利益冲突、压力诚信等），确保诚信评估的全面性
context_bundle_cap = 3：同一份长文档素材在单轮评测中最多关联 3 道题，防止单一素材过度影响分数
分层抽样保证每轮评测的维度覆盖均匀，同时引入随机性避免模型对固定题集过拟合

判分引擎

v6 采用多种判分引擎，根据题目类型自动选择最合适的评分方式：

sandbox	Python 沙箱真实执行 — 代码题在隔离沙箱中真实运行，用 unit test 验证输出正确性，不依赖任何 AI 评判
grounded	引用检查 + AI 辅助 — 长文档题要求引用原文证据，先做引用匹配检查，再由 AI 辅助判断引用的准确性和完整性
exact_rank	排序精确匹配 — 主要用于 honesty_under_pressure 压力诚信题，排序必须完全正确，0 或 100 分
AI judge	二次确认 — 当其他判分方式落入模糊区间时触发 AI 裁判进行二次确认，确保判分准确
contains_all	全部关键词命中比例，按命中率给分
regex	正则匹配，模糊区间自动触发 AI judge 二次确认
json_structure	JSON 结构 + 字段值校验，检查嵌套字段
其他	contains_any、exact、ordered_sequence、exact_boolean_set、exact_numeric_set、exact_json_value 等

v5 → v6 维度映射

v6 对旧版维度做了重新拆分和归类。以下是 v5 维度到 v6 的映射关系：

v5 维度	v6 归属
coding 代码执行	→ 代码执行（Execution）的一部分
knowledge 知识综合(旧)	→ 已拆分为工程判断（Judgment）/ 诚信评级（Integrity）/ 任务表达（Communication）/ 代码执行（Execution）的可复核部分
longctx 长上下文	→ 材料约束 Grounding
value 性价比	→ Ops 运营信号：性价比（Value）
stability 稳定性	→ Ops 运营信号：稳定性（Stability）
availability 可用性	→ Ops 运营信号：可用性（Availability）

核心变化：旧版 knowledge 维度覆盖面过广，v6 将其拆分为四个更精确的子维度。旧版六维加权平均（coding 25% + knowledge 25% + longctx 15% + value 15% + stability 10% + availability 10%）已废弃，v6 主榜仅由 Execution 和 Grounding 两个可审计维度决定。

审计声明

主榜核心分以可复核题为主；代码题真跑，结构化题 strict judge，长文档题要求引用原文证据。侧榜含 AI 辅助评估，会单独标识。

Execution 题：在 Python 沙箱中真实执行，用 unit test 验证，判分结果可复现
Grounding 题：引用检查 + AI 辅助，长文档题要求引用原文段落作为证据
Integrity 题：压力诚信题采用 exact_rank 精确匹配，其余用结构化判分
Judgment / Communication 题：AI 辅助评估，在侧榜展示时会明确标识"AI 辅助判分"

评测频率

每日凌晨：轻量评测 smoke，各维度少量抽题快速检测
每周一深夜启动完整评测，通常次日凌晨完成：完整评测 full，从 212 题中分层抽样约 100 题
评测完成后自动生成变化报告

滚动均值排名

排行榜上的分数是最近 5 次同版本完整评测的滚动算术平均，而非单次评测分数。

为什么用均值？ 单次评测因抽样随机性、网络波动等因素会有噪声。取多次平均可以消除偶然波动，让排名更稳定、更能反映模型真实水平。
窗口大小：最近 5 次同评分引擎版本的完整评测。跨版本（如 v5→v6）的 run 不混入计算。
数据积累期：新版本上线初期不足 5 次评测时，用已有全部数据计算均值，并标注"数据积累中"。
异常检测：如果某次评测的分数偏离滚动均值超过 1 个标准差，排行榜会标注"本期异常偏高/偏低"。超过 2 个标准差的变化会触发事故检测。

评测系统版本

公式版本	v7 — 综合分权重公式版本（formula_version）
判分器版本	v6 — 自动评判规则集版本（judge_version）
题库版本	v6 — 题库规模与内容版本（benchmark_version）

三条版本线独立演进：公式版本追踪权重调整，判分器版本追踪评分规则变化，题库版本追踪题目数量与内容变化。版本号记录在每次 run 中，确保同一版本下的评测结果可比。版本变更会在更新日志中记录。

版本锁定策略

每个模型在 config.php 中记录固定的 ai_model 字段作为版本标识
带日期后缀的模型直接锁定到该快照版本
不带日期的模型使用厂商最新版本，评测结果反映当前线上表现
当厂商发布重大更新时，人工审核后更新版本号，确保评测对象一致
版本变更会在更新日志中记录

当前各模型版本：

Claude Opus 4.6	claude-opus-4-20250514
Claude Sonnet 4.6	claude-sonnet-4-6-20250514
GPT-4o	gpt-4o
GPT-o3	o3
Grok 3	grok-3
Gemini 2.5 Pro	gemini-2.5-pro
DeepSeek V3	deepseek-chat
DeepSeek R1	deepseek-reasoner
Qwen Max	qwen-max
豆包 Pro	doubao-seed-2-0-pro-260215
文心一言 4.0	ernie-4.0-8k

数据完整性规则

跨 run 数据不可拼接：每个模型的成绩必须来自同一次评测（同一个 run_id），不得从其他 run 复制分数填补缺失
API 不可用时标注缺席：若模型因 API 额度耗尽、服务宕机等原因无法完成评测，该期标注"未参与评测"而非填入历史数据
评测环境一致性：同一 run 内所有模型在相同时间窗口、相同题目集、相同评分规则下评测，确保横向可比
缺席模型不参与排名：未完成评测的模型不计入当期排名，排行榜仅展示实际参与评测的模型

当前评测模型（11 个）

模型	Claude Opus 4.6、Claude Sonnet 4.6、GPT-4o、GPT-o3、Grok 3、Gemini 2.5 Pro、DeepSeek V3、DeepSeek R1、Qwen Max、豆包 Pro、文心一言 4.0