跳到主要内容
YZ Index

赢政指数 — 谁变了,为什么变,今天该用谁

代码真跑 · 引用必查 · 统计定榜 · 每周自动出报告

11 个主流模型 — 中美欧 8 家厂商全覆盖,新模型发布即接入 212 专业题库 — 编程题沙箱真跑,长文本强制引用,42 道探针防作弊 5 评测维度 — 代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚信评级 + 运行信号 每周自动评测 — 212 题随机抽 100 题,排名基于 5 次滚动均值
今日决策快照
  • 主榜第一(5 次滚动均值) Grok 3
  • 代码执行第一 豆包 Pro
  • 材料约束第一 Grok 3
  • 本周最大上涨 文心一言 4.0 +15
  • 最新完整评测 04-27 04:18 SGT
  • 轻量监控 04-30 03:01 SGT
全部时间均为 SGT
最新评测:04-27 04:18 SGT · 11 个模型 · 100 道题 · 排名基于滚动均值 轻量监控:04-30 03:01 SGT
技术详情

Run #87 · 公式 v7 · 判分 v6 · 题库 v6

主榜排名基于最近 5 次完整评测的滚动均值。

"最新完整评测"显示最近一次完整跑分结果(212 题题库随机抽样 100 题)。

"轻量监控"只用于追踪短期波动与异常(每维度抽 3 题共 9 题),不直接决定主榜排名。

本周亮点

2026 第18周

主榜排行榜

查看完整榜单
# 模型 代码执行 材料约束 主榜分 诚信 推荐
🥇 Grok 3 88.90 84.40
86.88
推荐
🥈 豆包 Pro 92.20 79.40
86.44
推荐
🥉 Gemini 2.5 Pro 89.40 78.10
84.32
推荐
4 Claude Sonnet 4.6 86.50 81.10
84.07
推荐
5 Claude Opus 4.6 86.50 79.70
83.44
推荐

探索榜单

主榜

core_overall: 代码执行 + 材料约束加权

代码执行

算法、Debug、SQL — 沙箱真实执行

材料约束

长文档理解、引用必查、矛盾检测

工程判断

侧榜,AI 辅助评估

任务表达

侧榜,AI 辅助评估

诚信评级

pass/warn/fail 准入门槛

性价比

能力 ÷ 价格

关于赢政指数

11
评测模型
覆盖 claude、gpt、grok、gemini、DeepSeek、qwen、doubao、ernie
212
题库总量
编程题在 Python 沙箱真实执行,材料约束题强制引用检查,42 道 canary 探针防过拟合
5+3
维度体系
代码执行 · 材料约束 · 工程判断 · 任务表达 · 诚信评级 + 性价比 · 稳定性 · 可用性
每日
评测频率
每日凌晨轻量监控,每周完整评测 100 题 × 11 模型并行,排名基于最近 5 次滚动均值

赢政指数的评测流程分三步:出题 → 执行 → 判分。题库共 212 道,每次完整评测随机抽样 100 题,覆盖代码执行、材料约束、工程判断、任务表达和诚信评级五个维度。

代码题不靠模型自我评判——所有编程题在隔离的 Python 沙箱中真实执行,用单元测试验证输出,通过就是通过,报错就是报错。长文本题强制引用检查——模型必须引用给定材料中的原文,凭空编造的内容直接扣分。此外,题库中嵌入了 42 道 canary 探针题,专门检测模型是否针对公开评测集过拟合。

排名不看单次发挥。主榜基于最近 5 次完整评测的滚动均值,减少随机波动对排名的干扰。每日凌晨还有轻量监控,追踪模型短期异常但不影响主榜排名。

为什么可信

赢政天下创立于 1998 年,是中文互联网早期的技术社区之一。2025 年转型为 AI 评测与研究平台,将 28 年技术社区运营经验应用于 AI 模型的独立评测。

赢政指数坚持三个原则:不接受模型厂商赞助,确保评测独立性;方法论完全公开,任何人可以审查评测流程和评分公式;原始数据可下载,研究者可以用自己的方法重新分析。所有评测代码自动执行,人工不干预评分过程。

常见问题

赢政指数和其他 AI 排行榜有什么区别?

三个核心区别:1)代码题在 Python 沙箱真实执行,不靠模型自我评判;2)长文本题强制引用检查,幻觉直接扣分;3)排名基于多次滚动均值而非单次快照,减少随机波动。同时设有 42 道 canary 探针题,防止模型针对性过拟合。

评测覆盖哪些模型?

覆盖 11 个主流模型,包括 Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通义千问(阿里)、豆包(字节跳动)、文心(百度)等中美欧主要厂商。新模型发布后通常在一周内接入。

评测频率和方法是什么?

每日凌晨进行轻量监控(每维度抽少量题追踪波动),每周进行完整评测(212 道题库随机抽样 100 题)。主榜排名基于最近 5 次完整评测的滚动均值,确保排名稳定可靠。

什么是诚信评级?

诚信评级是赢政指数的准入门槛机制,分为 pass(通过)、warn(警告)、fail(不通过)三级。通过 42 道探针题检测模型是否存在虚构引用、编造数据、伪造来源等行为。诚信不过关的模型即使分数再高,也会被标记警告。

如何使用赢政指数选择 AI 模型?

根据你的使用场景看对应维度:写代码看"代码执行"榜,做研究分析看"材料约束"榜,综合使用看"主榜"。同时关注"推荐"列(推荐/中性/不推荐)和"性价比"维度。建议结合"本周变化"了解模型近期趋势,避免选到正在下滑的模型。

所有时间均为新加坡时间(SGT, UTC+8)