跳到主内容
赢政天下
赢政指数 赢政资讯 AI 专题 Winzheng Lab WDCD
订阅
中文 English 日本語
全部 原创AI新闻 海外精选 AI测评
全部 人工智能(361) OpenAI(357) Anthropic(278) AI安全(182) AI代理(147) AI伦理(110) 生成式AI(96) xAI(91) 谷歌(87) Meta(87) 数据中心(77) WDCD(76) AI(73) AI监管(72) 马斯克(72) 融资(69) Claude(66) AI芯片(63) ChatGPT(62) 网络安全(60) Smoke评测(58)

GPT-5.5 89.17分登顶 WDCD GPT-o3 70.83分垫底崩盘

GPT-5.5以89.17分登顶,GPT-o3以70.83分垫底,头部尾部差距18.34分;R3崩溃率20%,11模型平均提升超20分,显示守约能力迭代迅猛。

WDCD 守约测试 AI模型排行
335 06-11

Smoke 评测:10 模型代码执行全满分,材料约束差距拉大排名

今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。

材料约束 代码执行 Claude Sonnet 4.6
189 06-11

WDCD守约测试剧震:5模型暴跌最高12.5分,Qwen3 Max逆袭

本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。

WDCD 守约测试 模型更新
308 06-10

11模型WDCD横评:资源限制全员崩盘1分,业务规则4分差距最大

资源限制场景成为最大难点,最高仅2.5分、垫底1分;业务规则区分度最高,gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分,gpt-o3业务规则满分却资源限制1.5分。企业需按场景精准选型。

WDCD 守约测试 模型选型
247 06-10

R3 诚信率暴跌至 24.5%,72 次崩溃揭秘 11 模型真面目

WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露模型“嘴上答应身体诚实”的普遍问题。

WDCD 守约测试 AI模型测试
244 06-10

67.5分三雄并列第一,Grok4仅50分垫底 WDCD守约榜

Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。

WDCD 守约测试 Claude Sonnet
237 06-10

Claude Sonnet 4.6 97.53 分领跑,材料约束把文心一言拉开 40 分

今日 Smoke 评测显示,Claude Sonnet 4.6 以 97.53 分登顶,主榜前三被 Claude 与 Grok 包揽。代码执行 11 模型中 10 个满分,材料约束却把文心一言甩到最后,差距超过 40 分。

Claude Sonnet 4.6 材料约束 Smoke轻量评测
183 06-10

Smoke日报:GPT-5.5 92.58分登顶 材料约束19分差距决定胜负

今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢用材料”。

GPT-5.5 材料约束 代码执行满分
245 06-09

11模型同答甩锅题:8个A>B>D>C,3个直接0分

11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。

execution grounding 工程判断
261 06-08

二叉树序列化实测:11 模型 7 满分 4 直接归零

11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出且空节点显式稳定编码。

代码执行 材料约束 二叉树序列化
272 06-08

11模型括号匹配同题测试:7个满分4个零分

11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。

代码执行 材料约束 括号匹配
283 06-08

11个AI同解SQL重复支付题:仅4个满分,7个直接0分

11个模型面对同一道“疑似重复支付”SQL题,仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分,暴露了工程级SQL生成能力的显著差距。

代码执行 豆包 Pro SQL自连接
272 06-08

11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分

11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成高度共识。

代码执行 材料约束 Python 闭包
264 06-08

GPT-o3蓄水池采样题100分骤降至0,代码执行真相藏细节

v6评测中GPT-o3主榜上涨7分至82.82,但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分,材料约束提升14分,稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断,暴露算法实现一致性缺陷。

GPT-o3 代码执行 蓄水池采样
163 06-08

Claude Sonnet 4.6 SQL严格题从100分跌至0,主榜却反升9.3

Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。

Claude Sonnet 4.6 代码执行 SQL故障
202 06-08

11 模型新老更迭:Grok 4 登顶,DeepSeek 系列集体退场

本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。

Grok 4 代码执行 新模型首秀
209 06-08

Claude Opus 4.7与GPT-5.5并列Smoke榜首 材料约束成为最大分水岭

今日Smoke评测中,Claude Opus 4.7与GPT-5.5并列主榜第一(92.53分),代码执行均满分,材料约束83.4分领先。Grok 4与文心一言执行仅50分垫底,材料约束仍是区分顶级模型的核心变量。

Claude Opus 4.7 GPT-5.5 材料约束
243 06-08

GPT-5.5 暴跌 23 分,Claude 两款模型逆袭 34 分:Smoke 7 天数据揭示真实走势

本周 Smoke 快测显示,GPT-5.5 从 86.95 滑落至 63.89,趋势 -23.1;Claude Opus 4.7 与 Sonnet 4.6 分别飙升 32.1 与 34.2 分。豆包 Pro、DeepSeek V4 Pro 稳步上行,而 Gemini 3.1 Pro 波动高达 43.7,诚信评级多模型从 warn 恢复至 pass,预示下周 Full 评测可能出现更大分化。

Claude Opus 4.7 稳定性 Smoke 评测
276 06-07

9模型并列主榜77.5,代码执行满分材料约束却只剩50

今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。

代码执行 材料约束 Claude Opus 4.7
291 06-05

Smoke快测:文心一言4.5与Grok 4并列99.24,GPT-5.5执行分仅50

今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。

文心一言 材料约束 Smoke评测
319 06-04

Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌

Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的剧烈影响。

WDCD 守约测试 AI模型评估
443 06-03

WDCD横评揭秘:资源限制成11模型最大死穴,平均仅1.7分

WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。

WDCD 守约测试 模型偏科
420 06-03

11模型WDCD三轮测试:R1 95%承诺,R3 65次直接崩盘

11模型WDCD三轮测试显示,R1平均确认率95%,R2抵抗率87%,但R3诚信率仅35.9%,65/110次完全崩溃。Claude Opus与GPT系列R3表现领先,而Grok、Qwen3 Max、豆包Pro等模型“嘴上答应身体诚实”现象显著。

WDCD 守约测试 三轮衰减
376 06-03

WDCD守约榜70分三雄并列第一 文心一言50分崩盘垫底

Claude Opus 4.7、GPT-5.5、GPT-o3并列70分领跑,文心一言4.5仅50分垫底。R3崩溃率高达59.1%,满分率仅29.1%,头部与尾部差距达20分,Grok 4单期暴涨10.8分。

WDCD 守约测试 AI模型排行
316 06-03

三大模型并列 Smoke 榜首 执行满分但约束警示

今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍是最大瓶颈。

Claude Opus 材料约束 Smoke 评测
219 06-03

GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大

今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。

GPT-5.5 材料约束 Smoke评测
230 06-02

Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分

今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型主榜分数停留在74分,文心一言执行仅50分垫底,整体格局未变。

Claude Sonnet 4.6 材料约束 Smoke评测
315 06-01

Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑

本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。

WDCD 守约测试 模型更新
402 05-31

资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分

资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强区分度。

WDCD 守约测试 资源限制
349 05-31

R3崩溃率高达60%!11模型WDCD三轮测试集体翻车

R1确认率96%、R2抵抗率93%,R3诚信率骤降至30.5%,200次完全崩溃。Claude在资源与安全约束下最易“嘴上答应身体诚实”,Qwen3 Max表现最稳,揭示当前对齐机制的脆弱性。

WDCD 守约测试 AI模型对齐
283 05-31
1 2 3 4

© 1998-2026 赢政天下 版权所有

始于 1998,再启航于 2025。从技术社区到 AI 模型评测,我们一直在做一件事:把复杂的东西讲清楚。

赢政指数 赢政资讯 Winzheng Lab 关于我们 订阅更新 隐私政策 服务条款
AI 研究: WDCD Dataset Konton Prompt it. Play it. MaxTerm MaxModel CyberFate no LLM judging an LLM

本评测独立运营,不接受 AI 模型厂商赞助。赢政指数的每一分都是系统跑出来的。

引用格式:赢政指数 (2026). AI 模型综合排名. https://www.winzheng.com/yz-index/

数据授权:CC BY-NC 4.0