跳到主要内容
YZ Index

评测方法论

了解赢政指数如何评测 8 个 AI 大模型

评测维度说明

编程能力 30%

代码生成、算法实现、Debug找错、SQL编写、动态规划、并发分析

知识工作 25%

摘要生成、邮件撰写、翻译、逻辑推理、数据分析

长上下文 15%

长文档理解、跨段落推理、大规模信息提取

性价比 15%

综合能力得分 / API价格,经 Sigmoid 归一化到 0-100

稳定性 15%

多次评测中得分方差的倒数归一化,越稳定分越高

权重公式

综合分 = coding x 0.30 + knowledge x 0.25 + longctx x 0.15 + value x 0.15 + stability x 0.15
编程能力 权重 0.30(30%)
知识工作 权重 0.25(25%)
长上下文 权重 0.15(15%)
性价比 权重 0.15(15%)
稳定性 权重 0.15(15%)
权重总和 1.00

举例:某模型编程 80、知识 70、长上下文 60、性价比 90、稳定性 75,则综合分 = 80×0.30 + 70×0.25 + 60×0.15 + 90×0.15 + 75×0.15 = 75.25

算法详解

稳定性怎么算的?

稳定性衡量的是模型在不同题目上表现是否一致。具体做法:

稳定性 = max(0, 100 − stddev(各题得分) × 2)

举例:某模型 5 道题得分是 90、85、92、88、95,标准差约 3.6,稳定性 = 100 - 3.6 × 2 = 92.8
另一个模型得分 100、30、90、20、60,标准差约 33,稳定性 = 100 - 33 × 2 = 34.0

性价比怎么算的?

性价比衡量的是花同样的钱,哪个模型能力更强。具体做法:

原始分 = 质量分 × (5.0 / 平均价格)
性价比 = 100 × (2 / (1 + e−原始分/50) − 1)

简单说:质量差不多的两个模型,价格低的性价比高;价格差不多的两个模型,质量高的性价比高。DeepSeek V3 价格极低($0.7/M),即使能力略弱,性价比也容易拉满。

综合分怎么算的?

综合分就是五个维度的加权平均,权重分配如下:

编程能力30% — 占比最高,因为编程是 AI 模型最核心的差异化能力
知识工作25% — 日常使用最多的场景,权重仅次于编程
长上下文15% — 重要但使用场景相对集中
性价比15% — 实际选型的关键考量
稳定性15% — 生产环境中不可或缺的可靠性

设计思路:编程和知识工作占 55%,因为这是用户每天实际使用 AI 的两大场景;长上下文、性价比、稳定性各占 15%,作为辅助维度平衡综合评价。

题库分布

编程题 13 道 — 涵盖算法实现(动态规划、图搜索)、Debug找错、SQL编写、并发分析、代码生成,难度从基础到竞赛级
知识工作题 10 道 — 摘要生成、商务邮件撰写、中英翻译、逻辑推理、数据分析报告,覆盖日常办公到专业分析
长上下文题 7 道 — 长文档关键信息提取、跨段落推理、大规模表格数据定位,测试上下文窗口的有效利用率
总计 30 道题,每次完整评测每维度跑 10 道,轻量评测每维度跑 3 道

评测频率

版本锁定策略

当前各模型版本:

Claude Opus 4.6 claude-opus-4-6-20250619
Claude Sonnet 4.6 claude-sonnet-4-6-20250514
GPT-4o gpt-4o
GPT-o3 o3
DeepSeek V3 deepseek-chat
DeepSeek R1 deepseek-reasoner
Gemini 2.5 Pro gemini-2.5-pro
Qwen Max qwen-max

评分方法

当前评测模型(8 个)

模型 Claude Opus 4.6、Claude Sonnet 4.6、GPT-4o、GPT-o3、DeepSeek V3、DeepSeek R1、Gemini 2.5 Pro、Qwen Max