跳到主内容
赢政指数
赢政资讯
AI 专题
Winzheng Lab
WDCD
订阅
中文
中文
English
日本語
首页
›
专题
›
AI 评测基准对比
AI 评测基准对比
109 篇文章 · 第 1/6 页
AI 模型评测是选型决策的基石。主流基准包括 MMLU、HumanEval、Chatbot Arena(LMSYS)、SuperCLUE、OpenCompass、C-Eval 等,但多数依赖选择题或模型互评,无法检测真实执行能力和幻觉风险。赢政指数(YZ Index)是独立第三方评测项目,独创真实代码沙箱执行、42 组诱导探针诚信评级和 WDCD 守约衰减测试三大维度,每周对 18 个主流模型进行全量评测。本专题汇集各大评测基准的方法论对比、排名变动和深度分析。
横评
WDCD守约测试剧震:5模型暴跌最高12.5分,Qwen3 Max逆袭
本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。
2026-06-10
横评
Smoke日报:GPT-5.5 92.58分登顶 材料约束19分差距决定胜负
今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢用材料”。
2026-06-09
横评
二叉树序列化实测:11 模型 7 满分 4 直接归零
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出且空节点显式稳定编码。
2026-06-08
Lab
3大模型翻译对决:第24周质量评测,passthrough 以 9 分领跑
本周共翻译 2425 篇文章,覆盖 3 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
2026-06-08
横评
9模型并列主榜77.5,代码执行满分材料约束却只剩50
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
2026-06-05
横评
Smoke快测:文心一言4.5与Grok 4并列99.24,GPT-5.5执行分仅50
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
2026-06-04
横评
GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
2026-06-02
Lab
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
2026-06-01
横评
Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型主榜分数停留在74分,文心一言执行仅50分垫底,整体格局未变
2026-06-01
横评
文心一言4.5代码执行从100暴跌至50,主榜单日掉11分
文心一言4.5今日Smoke评测主榜从74分跌至62.96分,核心原因是代码执行维度从100分直接腰斩至50分,材料约束小涨4.5分。单日10题抽样下,这种波动究竟是随机题目方差,还是模型真实能力退化,值得拆解。
2026-05-30
横评
文心一言执行分暴跌50,Smoke轻测今日主榜大洗牌
今日Smoke轻量评测中,文心一言4.5执行分直接腰斩至50,主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分,Claude Opus 4.7以99.42分继续领跑,材料约束成为拉开差距的关键。
2026-05-30
横评
DeepSeek V4 Pro Smoke测试主榜暴涨48.7,工程判断却暴跌28.4
DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99,代码执行从20分直接拉满至100分,但工程判断从38.4暴跌至10分,诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化,值得关注。
2026-05-29
横评
豆包 Pro 代码执行暴跌80分 主榜单日掉41.2
豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。
2026-05-28
横评
Gemini 3.1 Pro代码执行暴跌80分,主榜单日掉33.5
Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分,代码执行维度直接从100分崩到20分,材料约束小涨6分,诚信评级从fail转为pass。
2026-05-28
横评
Claude Opus 4.7材料约束单日跌15分,Smoke测试波动还是真实退化
Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50,主榜从88.53降至81.78。代码执行保持满分100分,工程判断与任务表达零变化。单日10题抽签下,此类15分级波动是否反映模型真实能力退化,值得持续跟踪。
2026-05-27
横评
11模型材料约束集体暴跌15分,Smoke评测揭示核心短板
今日Smoke轻量评测显示,11款主流模型主榜全线下滑,材料约束平均暴跌15分以上,多款从warn转为fail。代码执行保持满分,暴露模型在事实约束上的系统性退化。
2026-05-27
横评
Claude Sonnet 4.6材料约束暴跌22分,代码执行却冲到100
Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。
2026-05-26
横评
Claude Opus 4.7主榜暴跌8.2分,材料约束单日崩18.3
Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53,材料约束单日暴跌18.3分至74.50,诚信评级从pass转为warn,工程判断小幅回升。
2026-05-26
Lab
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
2026-05-25
横评
文心一言4.5代码执行从95暴跌至50,主榜单日掉27.2分
文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。
2026-05-25
1
2
3
4
»
相关专题
AI 代码能力评测
指令遵从与守约测试
OpenAI 专题
Anthropic 专题
AI 安全专题