AI 评测基准对比

146 篇文章 · 第 1/8 页

AI 模型评测是选型决策的基石。主流基准包括 MMLU、HumanEval、Chatbot Arena（LMSYS）、SuperCLUE、OpenCompass、C-Eval 等，但多数依赖选择题或模型互评，无法检测真实执行能力和幻觉风险。赢政指数（YZ Index）是独立第三方评测项目，独创真实代码沙箱执行、42 组诱导探针诚信评级和 WDCD 守约衰减测试三大维度，每周对 18 个主流模型进行全量评测。本专题汇集各大评测基准的方法论对比、排名变动和深度分析。

横评 Claude Opus 4.7 与 Grok 4并列96.99分：2026-07-07 Smoke快测数据简报

2026-07-07 赢政指数 Smoke 快测覆盖 11 个模型，Claude Opus 4.7 与 Grok 4 以 96.99 分并列当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

Lab 4大模型翻译对决：第28周质量评测，gpt-o3 以 9 分领跑

本周共翻译 318 篇文章，覆盖 4 个AI模型。经抽样盲评，gpt-o3 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

横评豆包 Pro以83.91分居首：2026-07-06 Smoke快测数据简报

2026-07-06 赢政指数 Smoke 快测覆盖 11 个模型，豆包 Pro 以 83.91 分位居当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

横评豆包 Pro 与 Gemini 3.1 Pro并列88.54分：2026-07-05 Smoke快测数据简报

2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型，豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测，适合观察短期信号，不等同 Full 周榜结论。

横评 Qwen3 Max主榜暴跌12.9分，代码执行单日跌26.8

在赢政指数2026年6月Smoke评测中，Qwen3 Max主榜从84.92分跌至72.02分，代码执行维度从96.30分暴跌至69.50分，降幅达26.8分，材料约束则小幅上升4.1分。

横评 Qwen3 Max主榜暴跌12.9分 Gemini 2.5 Pro 96.99分领跑Smoke轻量榜

2026-07-04 Smoke轻量评测中，Gemini 2.5 Pro以主榜96.99分（执行100、约束93.3）登顶，Qwen3 Max主榜暴跌12.9分至72.02。GPT-o3与Gemini 2.5 Pro单日分别上涨24分和22.4分，执行与约束的强弱搭配成为今日核心分化点。

横评 Claude Sonnet 4.6 Smoke主榜暴跌15.3分，代码执行单日掉25分

今日Smoke评测中，Claude Sonnet 4.6主榜从97.84分跌至82.52分，降幅15.3分。其中代码执行从100.00直接跌到75.00，材料约束小降3.5分，而工程判断和任务表达反而分别升10.4分和16.7分。

横评 Claude Opus 4.7 Smoke测试主榜暴跌16分，代码执行单日掉27.2

在赢政指数今日Smoke评测中，Claude Opus 4.7主榜从100.00分跌至84.01分，代码执行维度从100.00分暴跌至72.80分，降幅达27.2分。材料约束仅降2.3分，工程判断反而上升9.1分，诚信评级维持pass。

Lab 4大模型翻译对决：第27周质量评测，claude-sonnet-4.6 以 9 分领跑

本周共翻译 376 篇文章，覆盖 4 个AI模型。经抽样盲评，claude-sonnet-4.6 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

横评 Claude Sonnet 4.6 Smoke评测主榜暴跌25.9分代码执行从100降至50

在赢政指数2026年6月Smoke评测中，Claude Sonnet 4.6主榜从96.45分跌至70.52分，代码执行维度从100.00直接腰斩至50.00。材料约束反而小幅上升3.5分，工程判断保持满分，诚信评级维持pass。

横评 Claude Opus 4.7代码执行从100暴跌至50 主榜单日掉25.7分

赢政指数今日Smoke评测中，Claude Opus 4.7代码执行从100.00分跌至50.00分，主榜从97.12分降至71.47分，单日暴跌25.7分。材料约束小幅回升，工程判断和任务表达保持高位，诚信评级仍为pass。

横评豆包Pro 98.61分登顶 Smoke评测，Claude执行-50分暴跌

2026-06-28 Smoke评测中，豆包Pro以执行100分、约束96.9分拿下主榜98.61分首位。Claude Opus 4.7与Sonnet 4.6执行从昨日100分骤降至50分，主榜分别下跌25.7分和25.9分。Gemini 3.1 Pro主榜升至91.21分，执行与约束均衡。

横评 4模型执行分暴跌至50，文心一言主榜狂掉34.1分

2026-06-24 Smoke评测中，文心一言4.5主榜暴跌34.1分至64.63，Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分，核心原因是代码执行从100直接跌至50。今日前三名DeepSeek V4 Pro、Gemini 3.1 Pro、Gr

横评 Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail

Qwen3 Max今日Smoke评测主榜从85.96分跌至74.00分，代码执行持平100.00分，材料约束从68.80分升至95.70分，但工程判断和任务表达双双大跌，诚信评级由pass转为fail。

Lab 4大模型翻译对决：第26周质量评测，claude-sonnet-4.6 以 9 分领跑

本周共翻译 393 篇文章，覆盖 4 个AI模型。经抽样盲评，claude-sonnet-4.6 综合得分最高（9/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

横评 Gemini 2.5 Pro主榜暴跌28分，代码执行从100直接腰斩

Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分，暴跌28分，主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分，其他维度持平或微升，诚信评级维持pass。

横评 Qwen3 Max材料约束暴跌26.7分，代码执行却升至100分

赢政指数今日Smoke评测显示，Qwen3 Max材料约束从95.50跌至68.80（-26.7），代码执行从68.80升至100.00（+31.2），主榜从80.82升至85.96（+5.1）。单日10题快测波动正常，但需区分抽签与真实退化。

横评 Qwen3 Max主榜暴跌19.2分，代码执行单日掉31.2分

赢政指数2026年6月Smoke评测显示，Qwen3 Max主榜从100分跌至80.82分，代码执行维度从100分降至68.80分，降幅31.2分。材料约束仅降4.5分，诚信评级维持pass。单日10题快测下，此类波动需区分抽签因素与真实能力变化。

横评 GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分

2026-06-20 Smoke轻量评测显示，GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50，主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一，执行与约束双满分。低分模型约束分仍维持96.7-100分，暴露执行维度成为今日

横评豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分，主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分，诚信评级仍为 pass。