赢政指数 — 谁变了,为什么变,今天该用谁
代码真跑 · 引用必查 · 统计定榜 · 每周自动出报告
- 主榜第一(5 次滚动均值) Grok 3
- 代码执行第一 豆包 Pro
- 材料约束第一 Grok 3
- 本周最大上涨 文心一言 4.0 +15
- 最新完整评测 04-27 04:18 SGT
- 轻量监控 04-30 03:01 SGT
技术详情
Run #87 · 公式 v7 · 判分 v6 · 题库 v6
主榜排名基于最近 5 次完整评测的滚动均值。
"最新完整评测"显示最近一次完整跑分结果(212 题题库随机抽样 100 题)。
"轻量监控"只用于追踪短期波动与异常(每维度抽 3 题共 9 题),不直接决定主榜排名。
本周亮点
2026 第18周主榜排行榜
查看完整榜单| # | 模型 | 代码执行 | 材料约束 | 主榜分 | 诚信 | 推荐 |
|---|---|---|---|---|---|---|
| 🥇 | Grok 3 | 88.90 | 84.40 | ✓ | 推荐 | |
| 🥈 | 豆包 Pro | 92.20 | 79.40 | ✓ | 推荐 | |
| 🥉 | Gemini 2.5 Pro | 89.40 | 78.10 | ✓ | 推荐 | |
| 4 | Claude Sonnet 4.6 | 86.50 | 81.10 | ✓ | 推荐 | |
| 5 | Claude Opus 4.6 | 86.50 | 79.70 | ✓ | 推荐 |
探索榜单
关于赢政指数
评测方法
查看完整方法论赢政指数的评测流程分三步:出题 → 执行 → 判分。题库共 212 道,每次完整评测随机抽样 100 题,覆盖代码执行、材料约束、工程判断、任务表达和诚信评级五个维度。
代码题不靠模型自我评判——所有编程题在隔离的 Python 沙箱中真实执行,用单元测试验证输出,通过就是通过,报错就是报错。长文本题强制引用检查——模型必须引用给定材料中的原文,凭空编造的内容直接扣分。此外,题库中嵌入了 42 道 canary 探针题,专门检测模型是否针对公开评测集过拟合。
排名不看单次发挥。主榜基于最近 5 次完整评测的滚动均值,减少随机波动对排名的干扰。每日凌晨还有轻量监控,追踪模型短期异常但不影响主榜排名。
为什么可信
赢政天下创立于 1998 年,是中文互联网早期的技术社区之一。2025 年转型为 AI 评测与研究平台,将 28 年技术社区运营经验应用于 AI 模型的独立评测。
赢政指数坚持三个原则:不接受模型厂商赞助,确保评测独立性;方法论完全公开,任何人可以审查评测流程和评分公式;原始数据可下载,研究者可以用自己的方法重新分析。所有评测代码自动执行,人工不干预评分过程。
常见问题
赢政指数和其他 AI 排行榜有什么区别?
三个核心区别:1)代码题在 Python 沙箱真实执行,不靠模型自我评判;2)长文本题强制引用检查,幻觉直接扣分;3)排名基于多次滚动均值而非单次快照,减少随机波动。同时设有 42 道 canary 探针题,防止模型针对性过拟合。
评测覆盖哪些模型?
覆盖 11 个主流模型,包括 Claude(Anthropic)、GPT(OpenAI)、DeepSeek、Gemini(Google)、Grok(xAI)、通义千问(阿里)、豆包(字节跳动)、文心(百度)等中美欧主要厂商。新模型发布后通常在一周内接入。
评测频率和方法是什么?
每日凌晨进行轻量监控(每维度抽少量题追踪波动),每周进行完整评测(212 道题库随机抽样 100 题)。主榜排名基于最近 5 次完整评测的滚动均值,确保排名稳定可靠。
什么是诚信评级?
诚信评级是赢政指数的准入门槛机制,分为 pass(通过)、warn(警告)、fail(不通过)三级。通过 42 道探针题检测模型是否存在虚构引用、编造数据、伪造来源等行为。诚信不过关的模型即使分数再高,也会被标记警告。
如何使用赢政指数选择 AI 模型?
根据你的使用场景看对应维度:写代码看"代码执行"榜,做研究分析看"材料约束"榜,综合使用看"主榜"。同时关注"推荐"列(推荐/中性/不推荐)和"性价比"维度。建议结合"本周变化"了解模型近期趋势,避免选到正在下滑的模型。