跳到主内容
赢政天下
赢政指数 赢政资讯 AI 专题 Winzheng Lab WDCD
订阅
中文 English 日本語
全部 原创AI新闻 海外精选 AI测评
全部 人工智能(361) OpenAI(357) Anthropic(278) AI安全(182) AI代理(147) AI伦理(110) 生成式AI(96) xAI(91) 谷歌(87) Meta(87) 数据中心(77) WDCD(76) AI(73) AI监管(72) 马斯克(72) 融资(69) Claude(66) AI芯片(63) ChatGPT(62) 网络安全(60) Smoke评测(58)

Qwen3 Max 70.83分称冠 WDCD守约榜 Grok4 51.67分垫底

Qwen3 Max以70.83分领跑WDCD守约榜,Grok4仅51.67分垫底;R3崩溃率60.6%,满分率仅21.2%。头部模型R3得分普遍高于0.7,尾部直接崩盘,差距集中于高压违约场景。

WDCD 守约测试 AI模型评测
308 05-31

Smoke 7天数据:DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

本周Smoke数据显示,DeepSeek V4 Pro与Gemini 2.5 Pro分别下滑30.2分和30.4分,均值跌至79.8和75;GPT-5.5、Claude Sonnet 4.6分别上涨11.5分和8.4分。诚信评级在多模型中频繁切换,稳定性普遍偏低,预示下周Full评测或出现更大分化。

DeepSeek V4 Pro GPT-5.5 诚信评级波动
240 05-31

文心一言4.5代码执行从100暴跌至50,主榜单日掉11分

文心一言4.5今日Smoke评测主榜从74分跌至62.96分,核心原因是代码执行维度从100分直接腰斩至50分,材料约束小涨4.5分。单日10题抽样下,这种波动究竟是随机题目方差,还是模型真实能力退化,值得拆解。

文心一言4.5 代码执行 Smoke评测
245 05-30

文心一言执行分暴跌50,Smoke轻测今日主榜大洗牌

今日Smoke轻量评测中,文心一言4.5执行分直接腰斩至50,主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分,Claude Opus 4.7以99.42分继续领跑,材料约束成为拉开差距的关键。

文心一言 代码执行 Smoke评测
228 05-30

DeepSeek V4 Pro Smoke测试主榜暴涨48.7,工程判断却暴跌28.4

DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99,代码执行从20分直接拉满至100分,但工程判断从38.4暴跌至10分,诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化,值得关注。

DeepSeek V4 Pro 代码执行 Smoke评测
262 05-29

Claude Sonnet 4.6主榜91.77断层领先,GPT-o3执行50分直接垫底

今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。

Claude Sonnet 4.6 材料约束 Smoke轻量评测
237 05-29

豆包 Pro 代码执行暴跌80分 主榜单日掉41.2

豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。

豆包 Pro 代码执行 Smoke评测
328 05-28

Gemini 3.1 Pro代码执行暴跌80分,主榜单日掉33.5

Gemini 3.1 Pro今日Smoke评测主榜从74分跌至40.48分,代码执行维度直接从100分崩到20分,材料约束小涨6分,诚信评级从fail转为pass。

Gemini 3.1 Pro 代码执行 Smoke评测
260 05-28

Smoke评测全员腰斩:11模型主榜平均暴跌42分,代码执行维度集体失守

今日Smoke轻量评测显示11个主流模型主榜平均暴跌42分,代码执行维度从昨日普遍高位跌至20或0分,仅Gemini 3.1 Pro以40.48分勉强领跑,暴露当前模型在复杂代码任务上的极端脆弱性。

代码执行 材料约束 Gemini 3.1 Pro
315 05-28

Qwen3 Max 15分暴涨登顶,Claude Opus 7.5分暴跌谁在真守约

Qwen3 Max WDCD暴涨15分至72.50登顶,DeepSeek V4 Pro同涨15分,Claude Opus 4.7与豆包 Pro 分别跌7.5与12.5分,三升三降揭示中文模型守约能力正在快速迭代。

WDCD 守约测试 AI模型评测
380 05-27

WDCD横评揭秘:业务规则成11模型集体滑铁卢,安全合规区分度拉满2分

WDCD测试显示业务规则场景整体得分最低,垫底仅1/4;安全合规区分度最大达2分;gemini-2.5-pro、gpt-5.5等模型偏科差距2分,企业选型必须按场景匹配。

WDCD 守约测试 模型选型
393 05-27

R1 93% 满口答应 R3 仅 26.4% 守住:11 模型 WDCD 三轮崩盘实测

R1 平均确认率 0.93,R3 诚信率仅 26.4%,67/110 次完全崩溃。Qwen3 Max 唯一 R3 达 0.9/2,其余模型“嘴上答应身体诚实”现象普遍,尤其业务规则与资源限制场景崩盘最严重。

WDCD 守约测试 模型衰减
306 05-27

Qwen3 Max 72.5分称霸 WDCD,文心一言 45 分垫底 R3 崩溃率 60.9%

Qwen3 Max 以 72.50 分领跑 WDCD 守约榜,R3 阶段拿下 0.90/2;文心一言 4.5 以 45 分垫底,R3 仅 0.30。11 个模型中满分率仅 11.8%,R3 崩溃率高达 60.9%,头部与尾部差距达 27.5 分,国产模型严重分化。

WDCD 守约测试 AI模型排行榜
269 05-27

Claude Sonnet 4.6材料约束暴跌15分,Smoke快测主榜下滑6.8

Claude Sonnet 4.6今日Smoke评测材料约束从74.5暴跌至59.5,主榜从88.53降至81.78,诚信评级由pass转为warn。单日-15分变化超出正常抽签波动,需关注是否出现真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke快测
274 05-27

Claude Opus 4.7材料约束单日跌15分,Smoke测试波动还是真实退化

Claude Opus 4.7在今日Smoke评测中材料约束从74.50暴跌至59.50,主榜从88.53降至81.78。代码执行保持满分100分,工程判断与任务表达零变化。单日10题抽签下,此类15分级波动是否反映模型真实能力退化,值得持续跟踪。

Claude Opus 4.7 材料约束 Smoke评测
257 05-27

11模型材料约束集体暴跌15分,Smoke评测揭示核心短板

今日Smoke轻量评测显示,11款主流模型主榜全线下滑,材料约束平均暴跌15分以上,多款从warn转为fail。代码执行保持满分,暴露模型在事实约束上的系统性退化。

材料约束 Claude Opus 4.7 模型评测
242 05-27

Claude Sonnet 4.6材料约束暴跌22分,代码执行却冲到100

Claude Sonnet 4.6今日Smoke评测材料约束从96.5暴跌至74.5,主榜仅微降2分。代码执行反升至100,单日10题抽签波动与真实能力变化需区分观察。

Claude Sonnet 4.6 材料约束 Smoke评测
304 05-26

Claude Opus 4.7主榜暴跌8.2分,材料约束单日崩18.3

Claude Opus 4.7今日Smoke评测主榜从96.76跌至88.53,材料约束单日暴跌18.3分至74.50,诚信评级从pass转为warn,工程判断小幅回升。

Claude Opus 4.7 材料约束 Smoke评测
284 05-26

Gemini 2.5 Pro 主榜暴跌35.6分,DeepSeek V4 Pro 登顶 Smoke 评测

今日 Smoke 评测中,Gemini 2.5 Pro 主榜从昨日 96.6 骤降至 61.03,执行分直接腰斩。DeepSeek V4 Pro 以 95.28 分登顶,执行 100 分、约束 89.5 分(warn)领先,GPT-o3 紧随其后 95.05 分。

DeepSeek V4 Pro 材料约束 Gemini 2.5 Pro
329 05-26

MLCommons公布2026 Rising Stars:39位机器学习系统新星入选

MLCommons公布第四届 Rising Stars 名单,39位来自全球26所机构的早期研究者从175多名申请者中脱颖而出。入选者研究覆盖大语言模型、ML系统效率、软硬件协同设计、可信AI、多模态学习及医疗、网络安全、科学计算等应用方向,凸显AI工程与系统研究的重要性。

MLC MLCommons 机器学习系统
305 05-25

文心一言4.5代码执行从95暴跌至50,主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。

文心一言4.5 代码执行 Smoke评测
241 05-25

DeepSeek V4 Pro 诚信评级 Fail 转 Pass,主榜单日暴涨 23 分

DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass,主榜从 74.00 跃升至 97.08,材料约束单项上涨 23.5 分。单日 10 题快测下,这种幅度变化究竟是抽签运气还是真实能力回暖,需要结合近期动态判断。

DeepSeek V4 Pro 诚信评级 Smoke测试
228 05-25

DeepSeek V4 Pro 97.08分登顶,文心一言执行分腰斩暴跌27.2

今日Smoke评测显示,DeepSeek V4 Pro以97.08分(执行100、约束93.5)登顶,GPT-o3单日主榜暴涨31.4分,而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50,诚信评级从warn转为pass。

DeepSeek V4 Pro 文心一言 Smoke轻量评测
204 05-25

GPT-o3代码执行暴跌42.5分,主榜单日崩18分

GPT-o3今日Smoke评测主榜从76.05跌至58.08,代码执行从90.00直接腰斩至47.50,工程判断也从50跌到10。单日抽题波动虽属正常,但这一量级的断崖式下跌已超出随机范围,值得重点追踪。

GPT-o3 代码执行 Smoke评测
377 05-24

文心一言4.5工程判断从50暴跌至10,主榜却逆涨14.5

文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分,但材料约束暴涨24.7拉动主榜升至88.48,诚信从fail升至warn,单日抽签波动可能是主因。

文心一言4.5 工程判断 Smoke评测
278 05-24

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分:2026 W21 Smoke 七日趋势

GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3,涨幅29.7分领跑;GPT-o3 则从94.51 断崖下跌至58.08,降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题,DeepSeek V4 Pro 连续两日诚信评级 fail 拉响警报。

GPT-5.5 稳定性 Smoke评测
345 05-24

GPT-o3主榜暴跌18分,豆包Pro一日暴涨35.8逆袭前五

今日Smoke轻量评测显示,GPT-o3主榜暴跌18分至58.08,执行分直接腰斩;豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分,快速挤入前五。GPT-5.5以90.3继续领跑,文心一言诚信评级降至warn。

GPT-o3 豆包 Pro 代码执行
283 05-24

Claude Sonnet 4.6材料约束暴跌22.6分,代码执行却直接翻倍

Claude Sonnet 4.6今日Smoke评测主榜升至81.28分,但材料约束从81分暴跌至58.4分,降幅22.6。代码执行从50分跃升至100分掩盖了这一下滑。单日10题快测波动正常,但需判断是否为真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测
274 05-23

Grok 4材料约束暴跌21.3分,代码执行却暴涨50,主榜反升17.9

Grok 4今日Smoke评测材料约束从80.3骤降至59,主榜却因代码执行翻倍升至81.55。单日10题抽签导致波动正常,但-21.3分降幅超出历史均值,需观察是否为真实能力退化。

Grok 4 材料约束 Smoke评测
306 05-23

材料约束集体暴跌20分,Grok 4 81.55分险胜Claude登顶

今日Smoke评测显示,11款主流模型材料约束维度普遍暴跌18-29分,导致整体排名剧烈洗牌。Grok 4以81.55分勉强守住第一,但约束仅59分且标warn;豆包Pro主榜暴跌37.2分,执行从高位直接腰斩至50分。核心问题集中在材料约束一致性崩盘。

材料约束 Grok 4 Smoke轻量评测
289 05-23
1 2 3 4 5

© 1998-2026 赢政天下 版权所有

始于 1998,再启航于 2025。从技术社区到 AI 模型评测,我们一直在做一件事:把复杂的东西讲清楚。

赢政指数 赢政资讯 Winzheng Lab 关于我们 订阅更新 隐私政策 服务条款
AI 研究: WDCD Dataset Konton Prompt it. Play it. MaxTerm MaxModel CyberFate no LLM judging an LLM

本评测独立运营,不接受 AI 模型厂商赞助。赢政指数的每一分都是系统跑出来的。

引用格式:赢政指数 (2026). AI 模型综合排名. https://www.winzheng.com/yz-index/

数据授权:CC BY-NC 4.0