AI 评测基准对比

85 篇文章 · 第 1/5 页
AI 模型评测是选型决策的基石。主流基准包括 MMLU、HumanEval、Chatbot Arena(LMSYS)、SuperCLUE、OpenCompass、C-Eval 等,但多数依赖选择题或模型互评,无法检测真实执行能力和幻觉风险。赢政指数(YZ Index)是独立第三方评测项目,独创真实代码沙箱执行、42 组诱导探针诚信评级和 WDCD 守约衰减测试三大维度,每周对 18 个主流模型进行全量评测。本专题汇集各大评测基准的方法论对比、排名变动和深度分析。
横评 Claude Sonnet 4.6材料约束暴跌22.6分,代码执行却直接翻倍
Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。
2026-05-23
横评 Grok 4材料约束暴跌21.3分,代码执行却暴涨50,主榜反升17.9
Grok 4今日Smoke评测材料约束从80.3骤降至59,主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常,但-21.3分降幅超出历史均值,需观察是否为真实能力退化。
2026-05-23
横评 Claude Opus 4.7材料约束暴跌17.6分,代码执行却逆势涨11.9
Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7,主榜微跌1.4分。代码执行却从38.1跃升至50.0,诚信评级从warn转为pass。单日10题测试波动正常,但17.6分跌幅仍需警惕模型真实退化风险。
2026-05-22
OpenAI称AI自主破解埃尔德什猜想 数学家验证后真伪辩论升级
2026年5月20日OpenAI发布内部通用推理模型,声称自主发现无限构造族改进埃尔德什平面单位距离猜想,数学家已验证。支持者视为AI突破重大开放问题,反对者质疑证明可重复性。本文基于已确认事实,结合X平台与Google核验来源,深入剖析异常信号背后的执行与 grounding 维度,体现winzh
2026-05-21
横评 豆包Pro主榜暴跌18.4分,代码执行一日暴降30.8,真实退化还是抽签运气?
豆包Pro今日Smoke评测主榜从96.06暴跌至77.64,代码执行单项暴降30.8分至66.7,材料约束微降,诚信评级从pass转为warn。小样本快测波动正常,但连续异常值得追踪。
2026-05-21
横评 Gemini 2.5 Pro材料约束暴跌14分,主榜却逆涨15.9,抽签还是真退化?
Gemini 2.5 Pro今日Smoke评测出现明显分化:材料约束从91.5暴跌至77.5,主榜却从74升至89.88。诚信评级从fail转为warn,工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动,还是模型真实能力退化。
2026-05-21
横评 Gemini 2.5 Pro主榜暴跌22.6分,工程判断直接腰斩
Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74,工程判断从66.7跌至30,任务表达从50跌至10,诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化,值得重点关注。
2026-05-20
横评 文心一言4.5诚信评级Fail,代码执行暴涨42.5分却侧榜崩盘
文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail,主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分,但工程判断和任务表达分别暴跌36.7分和40分,显示模型在一致性与指令遵循上出现明显退化。
2026-05-20
横评 Claude Opus 4.7主榜暴跌22.6分,代码执行从100直接腰斩
Claude Opus 4.7今日Smoke评测主榜暴跌22.6分,代码执行从100分直接跌至50分,材料约束反升11分,需区分随机波动与真实能力退化。
2026-05-19
横评 豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动
豆包Pro今日Smoke评测材料约束从95分跌至79.8分,暴跌15.2分,主榜下降6.8分至90.91。代码执行保持满分,工程判断与任务表达却有提升。单日10题快测下,这一变化更可能是题目抽签波动还是模型真实退化,值得拆解。
2026-05-19
横评 11 个 AI 解同一道逻辑题,5 家正确 6 家集体出错
11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。
2026-05-18
横评 11 模型同答 SQL 留存题:9 家 0 分,DeepSeek 与 Grok 仅 66.7
在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模型在精确多步分析 SQL 上的系统性短板。
2026-05-18
Lab 3大模型翻译对决:第21周质量评测,gpt-o3 以 8.7 分领跑
本周共翻译 242 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
2026-05-18
横评 Gemini 3.1 Pro主榜暴跌11.1分,代码执行从100直接腰斩
Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。
2026-05-18
横评 Qwen3 Max主榜暴跌10.9分,代码执行单日腰斩25分
Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。
2026-05-18
横评 GPT-5.5主榜暴跌23.5分,豆包Pro 97.75登顶Smoke
今日Smoke轻量评测中,豆包Pro以97.75分登顶,GPT-5.5主榜暴跌23.5分至60.58,执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑,材料约束成为今日最大分水岭。
2026-05-18
横评 Claude Sonnet 4.6 主榜暴跌12.3分 材料约束单日狂降27.3分
Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分,材料约束维度从96.30暴跌至69.00,单日下降27.3分。代码执行保持满分100分,诚信评级维持pass,需区分随机抽题波动与真实能力退化。
2026-05-17
横评 7天Smoke快测:文心一言飙升53分,GPT-o3领跌7.8
本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05,Claude Sonnet与豆包Pro同步逆袭;GPT-o3下滑7.8、Grok波动79.2居首,多模型诚信评级出现fail或warn信号,暴露一致性隐患。
2026-05-17
横评 GPT-5.5主榜暴跌28分:真退化吗
GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08,单日下滑 28 分;关键不是材料约束,而是代码执行从满分砍半。
2026-05-16
横评 Gemini 2.5 Pro跌10分:能力没崩诚信翻车
Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分,但代码执行仍为 100,材料约束反涨 9.8,真正警报来自诚信评级由 pass 转 fail。
2026-05-16