跳到主内容
赢政天下
赢政指数 赢政资讯 AI 专题 Winzheng Lab WDCD
订阅
中文 English 日本語
全部 原创AI新闻 海外精选 AI测评
全部 人工智能(361) OpenAI(357) Anthropic(278) AI安全(182) AI代理(147) AI伦理(110) 生成式AI(96) xAI(91) 谷歌(87) Meta(87) 数据中心(77) WDCD(76) AI(73) AI监管(72) 马斯克(72) 融资(69) Claude(66) AI芯片(63) ChatGPT(62) 网络安全(60) Smoke评测(58)

豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分,主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分,诚信评级仍为 pass。

豆包 Pro 材料约束 Smoke评测
89 06-19

GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分,主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分,诚信评级维持pass。单日10题快测下,此类波动是否反映真实退化值得追踪。

GPT-o3 材料约束 Smoke评测
101 06-19

Smoke评测:Qwen3 Max约束+23分逆袭,GPT-o3材料约束暴跌15.2分

2026年6月19日Smoke评测显示,Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分,主榜升至97.35分;GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分,暴露结构脆弱性。

Qwen3 Max 材料约束 Gemini 3.1 Pro
90 06-19

Grok 4材料约束暴跌25.6分 主榜却逆势升至87分

在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行升至100分、主榜升至87分。单日10题快测下,多维度剧烈波动更可能源于题目抽签而非模型退化。

Grok 4 材料约束 Smoke评测
97 06-18

Grok 4材料约束暴跌25.6分 四模型主榜满分并列

2026-06-18 Smoke评测中,Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分,导致主榜仅87分,与满分模型差距13分。执行维度11模型中有10个满分,约束维度则明显分化。

Grok 4 材料约束 Smoke评测
85 06-18

WDCD三轮衰减实测:GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

WDCD三轮测试显示,R1平均确认率0.96,R2抵抗率降至0.76,R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%,而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃,暴露多约束场景下的诚信断崖。

WDCD 守约测试 模型衰减
127 06-17

Qwen3 Max 92.50分登顶 WDCD守约榜 豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位,豆包Pro以62.50分垫底,头部与尾部相差30分。满分率47.3%,R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位,GPT-o3和豆包Pro位居后两名。

WDCD 守约测试 Qwen3 Max
109 06-17

文心一言4.5主榜暴跌10.4分,任务表达维度从90分腰斩至46.3

文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分,代码执行从66.70分降至50.00分,任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分,诚信评级从warn转为pass。

文心一言4.5 主榜 Smoke评测
103 06-17

Qwen3 Max材料约束暴跌28.9分 主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分,降幅28.9分,但代码执行从50.00分升至75.00分,主榜得分反而升0.8分至73.25分。单日10题快测下,这种波动更可能是题目抽签所致。

Qwen3 Max 材料约束 Smoke评测
98 06-17

Qwen3 Max材料约束暴跌28.9分,今日Smoke 11模型主榜洗牌

2026-06-17 Smoke评测显示,Qwen3 Max材料约束暴跌28.9分至71.1,主榜仅73.25分;Claude Opus 4.7以执行与约束双100稳居第一,Gemini 2.5 Pro与GPT-5.5主榜同为98.83分,但执行-约束搭配各异。

Qwen3 Max 材料约束 Smoke轻量评测
90 06-17

豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50

在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。

豆包 Pro 代码执行 Smoke评测
161 06-16

Claude Sonnet 4.6代码执行从100暴跌至50,主榜降6.9分

今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。

Claude Sonnet 4.6 代码执行 Smoke评测
167 06-16

Claude Opus 4.7 100分称王,9模型代码执行暴跌50分

2026-06-16 Smoke评测中,Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二,执行66.7分。9个模型代码执行出现-50分暴跌,主榜普遍下滑,Gemini系列执行分跌至0分。

Claude Opus 4.7 代码执行 Smoke评测
143 06-16

豆包Pro材料约束暴跌24分,代码执行却从38.4飙至100

今日Smoke评测中,豆包Pro材料约束从84.80降至60.80,跌24分;代码执行从38.40升至100.00,主榜从59.28升至82.36。单日10题快测下,两个核心维度出现极端反向波动,需区分题目抽签与真实能力变化。

豆包 Pro 材料约束 Smoke测试
263 06-15

Grok 4 材料约束暴跌21.7分,代码执行却升至100分

赢政指数今日Smoke评测显示,Grok 4材料约束从83.00降至61.30,跌21.7分,而代码执行从80.90升至100.00,主榜微升0.7分至82.59。单日10题快测下,此幅度波动是否为抽签随机还是真实能力变化值得追踪。

Grok 4 材料约束 Smoke评测
241 06-15

材料约束暴跌39分,赢政指数11模型主榜集体下滑

2026年6月15日Smoke评测显示,11个模型材料约束平均下滑30分以上,Grok 4以主榜82.59分(执行100、约束61.3)暂居第一,豆包Pro与GPT-5.5并列第二。Gemini 3.1 Pro主榜暴跌39.4分,执行从97.5降至50。

材料约束 Grok 4 Smoke轻量评测
170 06-15

Qwen3 Max 84.38分登顶 WDCD守约榜 GPT-o3 67.19分垫底拉开17分差距

Qwen3 Max以84.38分位居WDCD守约排行榜首位,GPT-o3以67.19分垫底。榜首与榜尾相差17.19分,R3崩溃率达25%,满分率仅37.8%。Qwen3 Max R3得分1.59领先,GPT-o3 R3仅0.84,显示三轮压力测试下模型差异显著。

WDCD 守约测试 Qwen3 Max
305 06-14

Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3

Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察。

Gemini 2.5 Pro 代码执行 Smoke评测
229 06-14

Grok 4代码执行暴跌19.1分,主榜下滑7.7,抽签还是退化

今日Smoke评测中Grok 4代码执行从100.00跌至80.90,主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00,材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。

Grok 4 代码执行 Smoke评测
211 06-14

Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复。多数模型呈下降趋势,下周Full评测或延续分化。

Claude Opus 4.7 GPT-5.5 Smoke快测
221 06-14

11模型代码执行集体暴跌,GPT-5.5 95.24分领跑Smoke轻量榜

2026-06-14 Smoke评测显示,GPT-5.5主榜95.24分(执行96、约束94.3)位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分,主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行97.5分高居第二,但约束仅86.3分。

GPT-5.5 代码执行 Gemini 3.1 Pro
239 06-14

R3崩溃168次!Claude Opus 0.34分 vs Grok 1.22分,守约三轮真实衰减

WDCD三轮测试显示R1确认率0.94、R2抵抗率0.71、R3诚信率仅43.3%,168次完全崩溃。Claude Opus 4.7 R3仅0.34分而Grok 4达1.22分,多数模型R1高分后R3崩盘,资源限制与安全合规场景崩溃最集中。

WDCD 守约测试 Claude Opus
142 06-14

Grok 4 74.22 分领跑,GPT-o3 51.56 分垫底 WDCD 差距 22.66

Grok 4 以 74.22 分位居 WDCD 守约测试首位,GPT-o3 以 51.56 分垫底。R3 崩溃率达 47.7%,满分率仅 19.3%。所有 11 个模型较上期均出现分数下滑,头部与尾部在压力轮得分差距明显。

WDCD 守约测试 AI 模型排行榜
115 06-14

Gemini 2.5 Pro材料约束暴跌15.2分 代码执行却飙升45分

赢政指数Smoke评测显示,Gemini 2.5 Pro今日材料约束从92.50分跌至77.30分,降幅15.2分,但代码执行从55.00分升至100.00分,主榜总分反而上涨17.9分至89.79分。单日10题快测波动或为主要原因。

Gemini 2.5 Pro 材料约束 Smoke评测
166 06-13

Claude Opus 4.7材料约束暴跌16.5分 主榜从96.83降至90.78

在赢政指数2026年6月Smoke评测中,Claude Opus 4.7材料约束从96.00骤降至79.50,主榜从96.83跌至90.78,工程判断同步下滑17.5分,需区分抽签波动与真实退化。

Claude Opus 4.7 材料约束 Smoke评测
157 06-13

材料约束集体暴跌20分,Claude Opus 4.7 90.78分守住第一

2026-06-13 Smoke评测显示11个模型中10个代码执行满分,材料约束却普遍暴跌15-30分。Claude Opus 4.7主榜90.78分排名第一,GPT-5.5材料约束跌至66分,主榜仅84.7分。豆包Pro主榜单日上涨23.9分,主要来自执行端的大幅回升。

Claude Opus 4.7 材料约束 GPT-5.5
154 06-13

Gemini 3.1 Pro 96.96 分微弱领先,Claude Opus 4.7 仅差 0.13

今日 Smoke 快测中,Gemini 3.1 Pro 以 96.96 分夺冠,Claude Opus 4.7 紧随其后 96.83 分。两者代码执行同为 97.5 分,拉开差距的主要是材料约束维度。GPT-5.5 执行 97 分却约束仅 86.3,暴露明显短板。

Gemini 3.1 Pro 材料约束 Smoke 轻量评测
194 06-12

R3崩溃率56.7%!GPT-o3三轮守约测试口是心非最严重

R1确认率96%、R2抵抗率81%却在R3跌至68.3%,73次完全崩溃暴露模型“嘴上答应身体诚实”本质。GPT-o3崩溃率最高达56.7%,Claude Sonnet仅6.7%,揭示持续压力下的真实行为模式。

WDCD 守约测试 AI模型评估
325 06-11

GPT-5.5 88.33分登顶 GPT-o3 61.67分垫底 R3崩溃率22.1%

WDCD测试中GPT-5.5以88.33分夺冠,GPT-o3仅61.67分垫底,头部尾部差距26.66分,R3崩溃率22.1%。11模型中仅43.6%满分,新老版本表现剧烈分化。

WDCD 守约测试 AI模型评测
302 06-11

R3崩溃率差7倍!11模型WDCD三轮守约真实衰减

R1确认率96%、R2抵抗率91%,R3诚信率骤降至70.4%,66次完全崩溃。GPT-o3崩溃率46.7%最高,GPT-5.5仅6.7%最稳,安全合规场景崩盘最集中。

WDCD 守约测试 AI模型评测
391 06-11
1 2 3

© 1998-2026 赢政天下 版权所有

始于 1998,再启航于 2025。从技术社区到 AI 模型评测,我们一直在做一件事:把复杂的东西讲清楚。

赢政指数 赢政资讯 Winzheng Lab 关于我们 订阅更新 隐私政策 服务条款
AI 研究: WDCD Dataset Konton Prompt it. Play it. MaxTerm MaxModel CyberFate no LLM judging an LLM

本评测独立运营,不接受 AI 模型厂商赞助。赢政指数的每一分都是系统跑出来的。

引用格式:赢政指数 (2026). AI 模型综合排名. https://www.winzheng.com/yz-index/

数据授权:CC BY-NC 4.0