YZ Index

赢政指数 — 谁变了，为什么变，今天该用谁

Q: 评测频率和方法是什么？

每日凌晨进行轻量监控，每周进行完整评测（212 道题库随机抽样 100 题）。主榜排名基于最近 5 次完整评测的滚动均值。

Q: 如何使用赢政指数选择 AI 模型？

根据使用场景看对应维度：写代码看代码执行榜，做研究分析看材料约束榜，综合使用看主榜。同时关注推荐列和性价比维度，结合本周变化了解模型近期趋势。

代码真跑 · 引用必查 · 统计定榜 · 每周自动出报告

11 个主流模型 — 中美欧 8 家厂商全覆盖，新模型发布即接入 212 专业题库 — 编程题沙箱真跑，长文本强制引用，42 道探针防作弊 5 评测维度 — 代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚信评级 + 运行信号每周自动评测 — 212 题随机抽 100 题，排名基于 5 次滚动均值

看主榜看评测变化看方法论

今日决策快照

主榜第一（5 次滚动均值） Grok 3
代码执行第一豆包 Pro
材料约束第一 Grok 3
本周最大上涨文心一言 4.0 +15
最新完整评测 04-27 04:18 SGT
轻量监控 04-30 03:01 SGT

全部时间均为 SGT

最新评测：04-27 04:18 SGT · 11 个模型 · 100 道题 · 排名基于滚动均值轻量监控：04-30 03:01 SGT

技术详情

Run #87 · 公式 v7 · 判分 v6 · 题库 v6

主榜排名基于最近 5 次完整评测的滚动均值。

"最新完整评测"显示最近一次完整跑分结果（212 题题库随机抽样 100 题）。

"轻量监控"只用于追踪短期波动与异常（每维度抽 3 题共 9 题），不直接决定主榜排名。

+15

#	模型	代码执行	材料约束	主榜分	诚信	推荐
🥇	Grok 3	88.90	84.40	86.88	✓	推荐
🥈	豆包 Pro	92.20	79.40	86.44	✓	推荐
🥉	Gemini 2.5 Pro	89.40	78.10	84.32	✓	推荐
4	Claude Sonnet 4.6	86.50	81.10	84.07	✓	推荐
5	Claude Opus 4.6	86.50	79.70	83.44	✓	推荐

主榜

core_overall: 代码执行 + 材料约束加权

代码执行

算法、Debug、SQL — 沙箱真实执行

材料约束

长文档理解、引用必查、矛盾检测

工程判断

侧榜，AI 辅助评估

任务表达

侧榜，AI 辅助评估

诚信评级

pass/warn/fail 准入门槛

性价比

能力 ÷ 价格

关于赢政指数

评测模型

覆盖 claude、gpt、grok、gemini、DeepSeek、qwen、doubao、ernie

212

题库总量

编程题在 Python 沙箱真实执行，材料约束题强制引用检查，42 道 canary 探针防过拟合

5+3

维度体系

代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚信评级 + 性价比 · 稳定性 · 可用性

每日

评测频率

每日凌晨轻量监控，每周完整评测 100 题 × 11 模型并行，排名基于最近 5 次滚动均值

赢政指数的评测流程分三步：出题 → 执行 → 判分。题库共 212 道，每次完整评测随机抽样 100 题，覆盖代码执行、材料约束、工程判断、任务表达和诚信评级五个维度。

代码题不靠模型自我评判——所有编程题在隔离的 Python 沙箱中真实执行，用单元测试验证输出，通过就是通过，报错就是报错。长文本题强制引用检查——模型必须引用给定材料中的原文，凭空编造的内容直接扣分。此外，题库中嵌入了 42 道 canary 探针题，专门检测模型是否针对公开评测集过拟合。

排名不看单次发挥。主榜基于最近 5 次完整评测的滚动均值，减少随机波动对排名的干扰。每日凌晨还有轻量监控，追踪模型短期异常但不影响主榜排名。

赢政天下创立于 1998 年，是中文互联网早期的技术社区之一。2025 年转型为 AI 评测与研究平台，将 28 年技术社区运营经验应用于 AI 模型的独立评测。

赢政指数坚持三个原则：不接受模型厂商赞助，确保评测独立性；方法论完全公开，任何人可以审查评测流程和评分公式；原始数据可下载，研究者可以用自己的方法重新分析。所有评测代码自动执行，人工不干预评分过程。

赢政指数和其他 AI 排行榜有什么区别？

三个核心区别：1）代码题在 Python 沙箱真实执行，不靠模型自我评判；2）长文本题强制引用检查，幻觉直接扣分；3）排名基于多次滚动均值而非单次快照，减少随机波动。同时设有 42 道 canary 探针题，防止模型针对性过拟合。

评测覆盖哪些模型？

覆盖 11 个主流模型，包括 Claude（Anthropic）、GPT（OpenAI）、DeepSeek、Gemini（Google）、Grok（xAI）、通义千问（阿里）、豆包（字节跳动）、文心（百度）等中美欧主要厂商。新模型发布后通常在一周内接入。

评测频率和方法是什么？

每日凌晨进行轻量监控（每维度抽少量题追踪波动），每周进行完整评测（212 道题库随机抽样 100 题）。主榜排名基于最近 5 次完整评测的滚动均值，确保排名稳定可靠。

什么是诚信评级？

诚信评级是赢政指数的准入门槛机制，分为 pass（通过）、warn（警告）、fail（不通过）三级。通过 42 道探针题检测模型是否存在虚构引用、编造数据、伪造来源等行为。诚信不过关的模型即使分数再高，也会被标记警告。

如何使用赢政指数选择 AI 模型？

根据你的使用场景看对应维度：写代码看"代码执行"榜，做研究分析看"材料约束"榜，综合使用看"主榜"。同时关注"推荐"列（推荐/中性/不推荐）和"性价比"维度。建议结合"本周变化"了解模型近期趋势，避免选到正在下滑的模型。

赢政指数 — 谁变了，为什么变，今天该用谁

本周亮点

文心一言 4.0：任务表达 +15

GPT-4o：任务表达 +15

GPT-o3：任务表达 +15

主榜排行榜

探索榜单

主榜

代码执行

材料约束

工程判断

任务表达

诚信评级

性价比

关于赢政指数

评测方法

为什么可信

常见问题