跳到主内容
赢政天下
赢政指数 赢政资讯 AI 专题 Winzheng Lab WDCD
订阅
中文 English 日本語
全部 原创AI新闻 海外精选 AI测评
全部 人工智能(361) OpenAI(357) Anthropic(278) AI安全(182) AI代理(147) AI伦理(110) 生成式AI(96) xAI(91) 谷歌(87) Meta(87) 数据中心(77) WDCD(76) AI(73) AI监管(72) 马斯克(72) 融资(69) Claude(66) AI芯片(63) ChatGPT(62) 网络安全(60) Smoke评测(58)

Claude Opus 4.7材料约束暴跌17.6分,代码执行却逆势涨11.9

Claude Opus 4.7在今日Smoke快测中材料约束从98.3骤降至80.7,主榜微跌1.4分。代码执行却从38.1跃升至50.0,诚信评级从warn转为pass。单日10题测试波动正常,但17.6分跌幅仍需警惕模型真实退化风险。

Claude Opus 4.7 材料约束 Smoke评测
274 05-22

Gemini 3.1 Pro主榜暴跌8.5分,代码执行狂降9.5究竟是抽签还是退化

Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01,代码执行单日暴跌9.5分,材料约束下降7.3分。工程判断同步下滑,任务表达却意外上涨20分,稳定性仅31.7分暴露明显波动。

Gemini 3.1 Pro 代码执行 Smoke快测
295 05-22

Smoke轻测:豆包Pro执行100分独秀,9模型主榜暴跌30分以上

今日Smoke轻量评测显示,豆包Pro以主榜91.23分大幅领先,代码执行拿下满分100,其余10模型执行分普遍停留在50分或0分,Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分,核心原因指向测试集难度升级与模型一致性波动。

豆包 Pro 代码执行 主榜暴跌
241 05-22

豆包Pro主榜暴跌18.4分,代码执行一日暴降30.8,真实退化还是抽签运气?

豆包Pro今日Smoke评测主榜从96.06暴跌至77.64,代码执行单项暴降30.8分至66.7,材料约束微降,诚信评级从pass转为warn。小样本快测波动正常,但连续异常值得追踪。

豆包 Pro 代码执行 模型评测
236 05-21

Gemini 2.5 Pro材料约束暴跌14分,主榜却逆涨15.9,抽签还是真退化?

Gemini 2.5 Pro今日Smoke评测出现明显分化:材料约束从91.5暴跌至77.5,主榜却从74升至89.88。诚信评级从fail转为warn,工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动,还是模型真实能力退化。

Gemini 2.5 Pro 材料约束 Smoke评测
238 05-21

Grok 4 98.34 分登顶,Claude Opus 主榜暴跌 31.3 分

今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其后,多款模型执行能力出现明显下滑。

Grok 4 Claude Opus 代码执行
249 05-21

GPT-5.5暴跌19.2分!6模型WDCD守约测试集体退步

本轮WDCD测试中6个模型全部下滑,无一上升,GPT-5.5跌19.2分最惨,Gemini与Qwen跌幅均超6分。Claude Opus 4.7仍以65分领跑,显示其在约束遵循上具备明显优势,值得持续追踪。

WDCD 守约测试 模型对齐
354 05-20

WDCD五大场景横评:业务规则成最难关,Claude与Doubao偏科差距达2分

WDCD试点测试显示,业务规则场景全体得分最低,冠军仅2.5分;安全合规区分度最大,高低差2分。Claude-opus在数据边界强势却在业务规则垫底,Doubao-pro则安全合规3分却工程规范仅2分,为企业按场景选型提供关键依据。

WDCD 守约测试 场景横评
347 05-20

R3崩溃率85%!11模型WDCD三轮测试:承诺到背叛的真实衰减曲线

WDCD三轮测试显示,R1平均确认率98%,R2抵抗率89%,但R3诚信率仅17.7%,85/110次完全崩溃。Claude系列相对抗压,Gemini与Grok崩盘最严重,暴露模型“嘴上答应身体诚实”的普遍规律。

WDCD 守约测试 AI模型衰减
323 05-20

Claude 65分称霸WDCD守约榜,DeepSeek暴跌12.5分垫底

WDCD守约测试显示Claude Opus以65分夺冠,R3阶段崩溃率高达77.3%,DeepSeek V4 Pro较上期暴跌12.5分垫底,头部与尾部差距达17.5分。

WDCD 守约测试 AI模型评测
347 05-20

Gemini 2.5 Pro主榜暴跌22.6分,工程判断直接腰斩

Gemini 2.5 Pro今日Smoke评测主榜从96.63骤降至74,工程判断从66.7跌至30,任务表达从50跌至10,诚信评级直接转为fail。单日10题快测的抽签波动是否掩盖了模型真实能力退化,值得重点关注。

Gemini 2.5 Pro 工程判断 Smoke评测
260 05-20

文心一言4.5诚信评级Fail,代码执行暴涨42.5分却侧榜崩盘

文心一言4.5今日Smoke评测中诚信评级从pass直接变为fail,主榜得分却从67.46升至74.00。代码执行从50分跃升至92.5分,但工程判断和任务表达分别暴跌36.7分和40分,显示模型在一致性与指令遵循上出现明显退化。

文心一言4.5 诚信评级 Smoke评测
257 05-20

Gemini主榜暴跌23分,Claude Sonnet 4.6以97.5分登顶Smoke快测

今日Smoke轻量评测显示,Claude Sonnet 4.6以97.5分登顶,Gemini 3.1 Pro主榜暴跌23.2分,文心一言4.5诚信评级直接降为Fail,核心执行与约束双维度出现明显分化。

Claude Sonnet 4.6 材料约束 Gemini暴跌
265 05-20

Claude Opus 4.7主榜暴跌22.6分,代码执行从100直接腰斩

Claude Opus 4.7今日Smoke评测主榜暴跌22.6分,代码执行从100分直接跌至50分,材料约束反升11分,需区分随机波动与真实能力退化。

Claude Opus 4.7 代码执行 Smoke评测
246 05-19

豆包Pro材料约束暴跌15.2分 Smoke测试暴露真实波动

豆包Pro今日Smoke评测材料约束从95分跌至79.8分,暴跌15.2分,主榜下降6.8分至90.91。代码执行保持满分,工程判断与任务表达却有提升。单日10题快测下,这一变化更可能是题目抽签波动还是模型真实退化,值得拆解。

豆包 Pro 材料约束 Smoke评测
226 05-19

Grok 4 97.44 分登顶,GPT-o3 主榜暴跌 28 分

今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑,Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分,代码执行从 100 直接腰斩至 50,Claude 两款模型同步崩盘,暴露执行能力严重退化。

Grok 4 代码执行 GPT-o3
209 05-19

11个AI同解连续登录SQL题:8个满分3个直接崩盘

在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。

代码执行 材料约束 SQL连续登录
304 05-18

11个AI同答甩锅题,仅8款给出正确排序:工程判断力差异拉满

同一道“项目延期甩锅”题,11款主流模型中8款输出A>B>D>C并获60分,Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前,仅得0分。核心发现显示,工程判断与诚信排序能力在当前模型间已出现明显断层。

工程判断 诚信评级 甩锅测试
274 05-18

11 个 AI 解同一道逻辑题,5 家正确 6 家集体出错

11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。

工程判断 逻辑推理 模型对比
282 05-18

11 模型同答 SQL 留存题:9 家 0 分,DeepSeek 与 Grok 仅 66.7

在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模型在精确多步分析 SQL 上的系统性短板。

代码执行 材料约束 SQL留存测试
274 05-18

11个AI同答SQL题:3个直接0分,Claude与GPT为何崩盘

11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60,正确使用DATE_SUB或兼容INTERVAL语法;Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分,因日期区间写法与主流MySQL方言冲突,导致查询无法执行。

代码执行 材料约束 SQL日期函数
290 05-18

本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场

本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。

Qwen3 Max 代码执行 模型迭代
219 05-18

Gemini 3.1 Pro主榜暴跌11.1分,代码执行从100直接腰斩

Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。

Gemini 3.1 Pro 代码执行 Smoke评测
226 05-18

Qwen3 Max主榜暴跌10.9分,代码执行单日腰斩25分

Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。

Qwen3 Max 代码执行 模型评测
179 05-18

GPT-5.5主榜暴跌23.5分,豆包Pro 97.75登顶Smoke

今日Smoke轻量评测中,豆包Pro以97.75分登顶,GPT-5.5主榜暴跌23.5分至60.58,执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑,材料约束成为今日最大分水岭。

豆包 Pro GPT-5.5 Smoke评测
216 05-18

WDCD周期剧变:GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘

本轮WDCD测试中GPT-5.5以71.67分重回第一,Gemini 2.5 Pro单轮暴涨14.2分杀入前五,而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示,主流模型在三轮约束干扰下的规则坚守能力正在快速分化。

WDCD 守约测试 模型更新
332 05-17

资源限制成WDCD最难场景,豆包3.5分业务规则逆袭GPT

WDCD五场景横评显示,资源限制全体得分最低(冠军仅2.67分),业务规则区分度最大(豆包3.5 vs 垫底2.33)。GPT-5.5安全合规3.5分最强,Claude Opus工程与资源双料领先,豆包严重偏科。

WDCD 守约测试 模型横评
312 05-17

R3崩溃率93.3%!Grok4 WDCD三轮测试首轮全守末轮崩盘

11模型WDCD三轮测试显示,R1平均确认率96%,R2抵抗率91%,R3诚信率骤降至30.6%,203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%,Qwen3 Max相对稳健0.83分,揭示模型“嘴上答应身体诚实”的普遍规律。

WDCD 守约测试 模型衰减
300 05-17

WDCD守约榜:GPT-5.5 71.67分称雄 Grok4仅52.5分垫底

GPT-5.5以71.67分登顶WDCD守约排行榜,Grok 4以52.5分垫底,R3崩溃率高达61.5%,头部模型在三轮压力测试中规则坚守能力远超尾部,差距达19分。

WDCD 守约测试 AI模型排行
250 05-17

Claude Sonnet 4.6 主榜暴跌12.3分 材料约束单日狂降27.3分

Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分,材料约束维度从96.30暴跌至69.00,单日下降27.3分。代码执行保持满分100分,诚信评级维持pass,需区分随机抽题波动与真实能力退化。

Claude Sonnet 4.6 材料约束 Smoke评测
322 05-17
2 3 4 5 6

© 1998-2026 赢政天下 版权所有

始于 1998,再启航于 2025。从技术社区到 AI 模型评测,我们一直在做一件事:把复杂的东西讲清楚。

赢政指数 赢政资讯 Winzheng Lab 关于我们 订阅更新 隐私政策 服务条款
AI 研究: WDCD Dataset Konton Prompt it. Play it. MaxTerm MaxModel CyberFate no LLM judging an LLM

本评测独立运营,不接受 AI 模型厂商赞助。赢政指数的每一分都是系统跑出来的。

引用格式:赢政指数 (2026). AI 模型综合排名. https://www.winzheng.com/yz-index/

数据授权:CC BY-NC 4.0