评测方法论
了解赢政指数如何评测 8 个 AI 大模型
评测维度说明
代码生成、算法实现、Debug找错、SQL编写、动态规划、并发分析
摘要生成、邮件撰写、翻译、逻辑推理、数据分析
长文档理解、跨段落推理、大规模信息提取
综合能力得分 / API价格,经 Sigmoid 归一化到 0-100
多次评测中得分方差的倒数归一化,越稳定分越高
权重公式
| 编程能力 | 权重 0.30(30%) |
|---|---|
| 知识工作 | 权重 0.25(25%) |
| 长上下文 | 权重 0.15(15%) |
| 性价比 | 权重 0.15(15%) |
| 稳定性 | 权重 0.15(15%) |
| 权重总和 | 1.00 |
举例:某模型编程 80、知识 70、长上下文 60、性价比 90、稳定性 75,则综合分 = 80×0.30 + 70×0.25 + 60×0.15 + 90×0.15 + 75×0.15 = 75.25
算法详解
稳定性怎么算的?
稳定性衡量的是模型在不同题目上表现是否一致。具体做法:
- 收集模型在所有题目上的单题得分(0-100)
- 计算这些分数的标准差(标准差越大,说明忽高忽低、不稳定)
- 套入公式:稳定性 = max(0, 100 - 标准差 × 2)
- 标准差为 0(每道题得分一样)→ 稳定性 100 分;标准差 50(忽高忽低)→ 稳定性 0 分
举例:某模型 5 道题得分是 90、85、92、88、95,标准差约 3.6,稳定性 = 100 - 3.6 × 2 = 92.8。
另一个模型得分 100、30、90、20、60,标准差约 33,稳定性 = 100 - 33 × 2 = 34.0。
性价比怎么算的?
性价比衡量的是花同样的钱,哪个模型能力更强。具体做法:
- 先算出模型的质量分(编程 + 知识 + 长上下文的综合表现)
- 再算平均 token 价格 = (输入价 + 输出价) / 2,单位是 $/百万 token
- 用参考价格 $5 作为基准,算原始性价比:原始分 = 质量分 × ($5 / 实际价格)
- 用 Sigmoid 函数归一化到 0-100,防止极端值爆表
性价比 = 100 × (2 / (1 + e−原始分/50) − 1)
简单说:质量差不多的两个模型,价格低的性价比高;价格差不多的两个模型,质量高的性价比高。DeepSeek V3 价格极低($0.7/M),即使能力略弱,性价比也容易拉满。
综合分怎么算的?
综合分就是五个维度的加权平均,权重分配如下:
| 编程能力 | 30% — 占比最高,因为编程是 AI 模型最核心的差异化能力 |
|---|---|
| 知识工作 | 25% — 日常使用最多的场景,权重仅次于编程 |
| 长上下文 | 15% — 重要但使用场景相对集中 |
| 性价比 | 15% — 实际选型的关键考量 |
| 稳定性 | 15% — 生产环境中不可或缺的可靠性 |
设计思路:编程和知识工作占 55%,因为这是用户每天实际使用 AI 的两大场景;长上下文、性价比、稳定性各占 15%,作为辅助维度平衡综合评价。
题库分布
| 编程题 | 13 道 — 涵盖算法实现(动态规划、图搜索)、Debug找错、SQL编写、并发分析、代码生成,难度从基础到竞赛级 |
|---|---|
| 知识工作题 | 10 道 — 摘要生成、商务邮件撰写、中英翻译、逻辑推理、数据分析报告,覆盖日常办公到专业分析 |
| 长上下文题 | 7 道 — 长文档关键信息提取、跨段落推理、大规模表格数据定位,测试上下文窗口的有效利用率 |
| 总计 | 30 道题,每次完整评测每维度跑 10 道,轻量评测每维度跑 3 道 |
评测频率
- 每日凌晨:轻量评测 smoke,每维度 3 道题
- 每周一:完整评测 full,每维度 10 道题
- 评测完成后自动生成变化报告
版本锁定策略
- 每个模型在 config.php 中记录固定的 ai_model 字段作为版本标识
- 带日期后缀的模型(如 claude-opus-4-6-20250619)直接锁定到该快照版本
- 不带日期的模型(如 gpt-4o、deepseek-chat)使用厂商最新版本,评测结果反映当前线上表现
- 当厂商发布重大更新时,人工审核后更新 config.php 中的版本号,确保评测对象一致
- 版本变更会在更新日志中记录
当前各模型版本:
| Claude Opus 4.6 | claude-opus-4-6-20250619 |
|---|---|
| Claude Sonnet 4.6 | claude-sonnet-4-6-20250514 |
| GPT-4o | gpt-4o |
| GPT-o3 | o3 |
| DeepSeek V3 | deepseek-chat |
| DeepSeek R1 | deepseek-reasoner |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Qwen Max | qwen-max |
评分方法
- 自动评判:使用 contains_all contains_any exact regex 四种方法
- 每道题有预设的标准答案和评判方式
- 每次 API 调用间隔 3 秒,避免限频
- 单次评测花费上限 $5
当前评测模型(8 个)
| 模型 | Claude Opus 4.6、Claude Sonnet 4.6、GPT-4o、GPT-o3、DeepSeek V3、DeepSeek R1、Gemini 2.5 Pro、Qwen Max |
|---|