跳到主内容
赢政天下
赢政指数 赢政资讯 AI 专题 Winzheng Lab WDCD
订阅
中文 English 日本語
全部 原创AI新闻 海外精选 AI测评
全部 人工智能(361) OpenAI(357) Anthropic(278) AI安全(182) AI代理(147) AI伦理(110) 生成式AI(96) xAI(91) 谷歌(87) Meta(87) 数据中心(77) WDCD(76) AI(73) AI监管(72) 马斯克(72) 融资(69) Claude(66) AI芯片(63) ChatGPT(62) 网络安全(60) Smoke评测(58)

Claude Opus 4.7 Smoke评测主榜暴跌9分,材料约束单日腰斩20分

Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75,材料约束从95分跌至75分,单日损失20分。代码执行保持满分,工程判断小涨,其他维度持平。需区分随机题目波动与真实能力退化。

Claude Opus 4.7 材料约束 Smoke快测
315 05-17

7天Smoke快测:文心一言飙升53分,GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05,Claude Sonnet与豆包Pro同步逆袭;GPT-o3下滑7.8、Grok波动79.2居首,多模型诚信评级出现fail或warn信号,暴露一致性隐患。

文心一言 GPT-o3 Smoke评测
310 05-17

三模型88.75分并列第一 Claude双雄暴跌12分 Smoke榜单剧烈洗牌

今日Smoke评测显示Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max三模型以88.75分并列第一,但Claude Sonnet 4.6主榜暴跌12.3分、材料约束骤降27.3分,Grok 4与DeepSeek分别暴涨38.3分和34.1分,榜单剧烈震荡。

Claude Opus 4.7 材料约束 Smoke轻量评测
300 05-17

GPT-5.5主榜暴跌28分:真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08,单日下滑 28 分;关键不是材料约束,而是代码执行从满分砍半。

GPT-5.5 代码执行 Smoke评测
350 05-16

Gemini 2.5 Pro跌10分:能力没崩诚信翻车

Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分,但代码执行仍为 100,材料约束反涨 9.8,真正警报来自诚信评级由 pass 转 fail。

Gemini 2.5 Pro 材料约束 Smoke评测
319 05-16

3模型暴跌28分,Claude仍近满分

5月16日Smoke快测显示,Claude Sonnet 4.6以98.34领跑,GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌,执行断档成为最大风险。

Claude Sonnet 4.6 GPT-5.5 代码执行
404 05-16

DeepSeek涨5分却Fail:10题烟测警报

DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74,但诚信评级由 pass 跌至 fail;代码执行满分,材料约束下滑,侧榜同步走弱。

DeepSeek V4 Pro 诚信评级 Smoke评测
372 05-15

Claude Sonnet 4.6 材料约束暴跌27.5分,主榜却逆势上涨1.4分?

Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分,但代码执行飙升25分,主榜微升1.4分。分析显示,这或是题目波动而非真实退化,无需过度关注,但稳定性仅31.7分暴露一致性隐患。

Claude Sonnet 4.6 材料约束 Smoke评测
361 05-15

2个零执行暴雷,Claude守住88.75分

今日Smoke快测出现强烈分化:9个模型代码执行满分,但文心一言4.5、Grok 4执行归零;Claude Opus 4.7以88.75居首,材料约束成为真正分水岭。

Claude Opus 4.7 材料约束 Smoke评测
339 05-15

GPT-OSS 20B:MLPerf Training v6.0 的稀疏 MoE 预训练新基准

MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准,用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化,将训练波动显著压低,目标是让成绩更真实反映系统效率。

MLC MLPerf Training GPT-OSS 20B
409 05-14

Claude Opus 4.7 Smoke评测主榜暴跌9.6分:退化信号还是抽签闹剧?

Claude Opus 4.7在今日Smoke评测中主榜暴跌9.6分,代码执行维度从100分跌至75分,引发退化疑虑。但材料约束升至85.8分,工程判断(侧榜)大跌20分。分析显示,这或是抽签波动,而非真实退步,诚信评级仍为pass,无需过度警戒。

Claude Opus 4.7 赢政指数 Smoke评测
387 05-14

Claude Sonnet 4.6代码执行暴跌25分:模型退化还是评测假象?

Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分,主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示,这可能是抽签波动而非真实退化,但结合近期Anthropic动态,开发者需警惕潜在不稳定性。

Claude Sonnet 4.6 代码执行 Smoke评测
384 05-14

Claude Sonnet 4.6 逆袭登顶!8大AI模型代码执行暴跌25分,行业地震真相

今日Smoke评测中,Claude Sonnet 4.6 以84.68分逆袭登顶,但8大模型代码执行暴跌25分,主榜平均下滑超10分。Claude家族强势,Gemini和DeepSeek大幅滑坡,揭示AI更新风险与稳定性隐忧。GroK 4诚信fail垫底。

Claude Sonnet 代码执行 AI评测
409 05-14

WDCD大洗牌:Gemini 2.5 Pro暴跌10分,GPT-5.5逆袭7.5分,谁主沉浮?

最新WDCD周期追踪显示,Gemini 2.5 Pro分数暴跌10分,Grok 4下滑7.5分,而Gemini 3.1 Pro和GPT-5.5分别上涨5分和7.5分。Top 5中Gemini 3.1 Pro与Qwen3 Max并列第一,揭示AI守约能力波动,模型更新成关键因素。

WDCD 守约测试 AI模型评测
391 05-13

WDCD五大场景横评:资源限制最难,11模型偏科差距达2分,谁是企业真命天子?

WDCD五大场景横评揭晓:资源限制场景最难,平均分仅1.86;安全合规区分度最大,DeepSeek-v4-pro满分4分。11模型多有偏科,如GPT-o3业务规则3.5分却资源限制仅1.5分。企业选型建议:数据边界首选Qwen3-max,安全合规选DeepSeek。

WDCD 守约测试 AI模型评测
403 05-13

AI守约大崩盘:R3崩溃76次,Grok4全军覆没的衰减黑洞

WDCD测试揭示AI模型在三轮衰减下的真实面目:R1确认率96%,R3诚信率仅24.5%,76/110次完全崩溃。Grok4 R3全崩100%,暴露嘴上答应身体不诚实的典型模式,警示企业AI部署风险。

WDCD 守约测试 AI模型衰减
347 05-13

WDCD守约榜:Gemini 3.1 Pro并列称王,Grok 4惨垫底!头部甩尾22.5分

WDCD守约测试试点揭晓:Gemini 3.1 Pro与Qwen3 Max并列第一(65.00分),Grok 4垫底(42.50分)。头部梯队稳健,R3崩溃率高达69.1%。Gemini系列迭代提升明显,Grok大跌7.5分,凸显AI守约能力巨大差距。

WDCD 守约测试 AI模型排名
363 05-13

Gemini 2.5 Pro Smoke评测主榜飙升13.5分,诚信翻盘却工程判断崩跌28分

Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54,诚信评级从fail转为pass,但工程判断(侧榜)暴跌28.4分至30.00。分析显示,这或是抽签波动而非真实退化,但需警惕潜在不稳定性。核心维度材料约束提升9分,代码执行维持满分。

Gemini 2.5 Pro 赢政指数 Smoke评测
350 05-13

Gemini 3.1 Pro 诚信翻盘!主榜暴涨15分,谷歌AI强势反弹?

Gemini 3.1 Pro 在今日Smoke评测中诚信评级从fail翻转为pass,主榜得分飙升15分至88.98。代码执行稳守100分,材料约束提升9.5分,但工程判断(侧榜)原地踏步。分析显示,这或是抽签波动而非真实退化,结合谷歌近期优化,值得持续关注。

Gemini 3.1 Pro 诚信评级 Smoke评测
299 05-13

Grok 4 暴跌25分执行崩盘!Claude Opus 89.43 分霸榜 AI 日评

今日Smoke评测中,Claude Opus以89.43分领跑,Grok 4主榜暴跌25.2分执行仅50分;Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险,GPT-o3也崩23.1分,暴露AI稳定性痛点。

Claude Opus Grok 4 AI评测
331 05-13

DeepSeek V4 Pro 主榜暴跌16分!诚信评级崩盘,模型真退化?

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分,从90.1降至74,诚信评级从pass转为fail。材料约束维度下滑13.5分,引发退化质疑。本文分析波动原因,并结合近期动态给出关注判断。

DeepSeek V4 Pro 材料约束 Smoke评测
387 05-12

Claude Opus 4.7 材料约束暴跌15.8分:模型退化还是抽签闹剧?

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分,主榜下滑7.1分,诚信评级从pass转为warn。分析显示,这可能是题目波动所致,但结合近期Anthropic动态,模型稳定性成疑,值得警惕。

Claude Opus 材料约束 Smoke评测
263 05-12

AI大模型惊变!文心一言暴涨24.7分却诚信崩盘,Gemini三连跌16分

2026年5月12日Smoke评测显示,GPT-5.5和GPT-o3并列主榜第一85.69分,但文心一言主榜暴涨24.7分却诚信降为Fail;Gemini系列暴跌超14分,多模型约束维度崩盘,揭示AI稳定性隐忧。

GPT-5.5 文心一言 代码执行
349 05-12

2026 主流 AI 评测基准横向对比:赢政指数 vs SuperCLUE vs OpenCompass vs C-Eval

横向对比赢政指数、SuperCLUE、OpenCompass、C-Eval 四大中文AI评测基准,从代码执行、长文档理解、诚信检测、约束衰减四个维度分析各自优劣。

AI评测 赢政指数 SuperCLUE
1,548 05-11

11大AI模型SQL连续登录题大考:8满分3崩盘,代码执行差距惊人

在同一道SQL题“连续登录天数”中,11个AI模型表现分化:豆包Pro、文心一言等8款满分100分,DeepSeek V4 Pro、GPT-o3等3款0分。分析揭示,成功者巧用ROW_NUMBER()分组,失败者语法或逻辑崩盘,凸显代码执行能力的边界。

代码执行 SQL AI模型对比
374 05-11

GPT-o3一道题从100跌0,主榜反而涨了

GPT-o3 在“矩阵旋转”严格题从 100 分跌到 0,但主榜却从 73.62 升至 75.69。原始 Log 指向一个低级执行失误。

GPT-o3 代码执行 严格题
342 05-11

11模型换代战:第一稳住,Grok垫底

2026-W20 评测显示:Claude Sonnet 4.6 以 83.54 守住第一,豆包 Pro 仅差 0.91 分;Grok 4 仅 49.20,断层垫底。

Claude Sonnet 4.6 Grok 4 主榜排名
398 05-11

WDCD测的不只是模型,是整个行业的盲区

WDCD的意义不只在榜单分数,而在揭示行业盲区。Run #105中110个案例有59例完美开局最终溃退,Q239更是11/11全军覆没。没有模型R3满分,行业一直在测量智力却忽略了纪律,WDCD填补了多轮行为一致性这个关键评测空白。

WDCD 行业盲区 评测体系
333 05-11

WDCD选型指南:企业选模型,不要再只问"谁第一"

总分只反映平均水平,场景矩阵才暴露真实短板。Run #105中Qwen3-Max总分2.6居首,但同为2.5的ERNIE 4.5以R3=0.8最抗压,Claude Sonnet 4.6以R2满分见长。企业选型不应追榜首,要匹配自身风险场景。

WDCD 企业选型 场景矩阵
323 05-11

为什么WDCD会成为Agent时代的"Crash Test"

汽车需要碰撞测试,企业Agent需要守约测试。Run #105中11个模型满分3.0无人达到,Qwen3-Max最高2.6仅四星水平,Q239让所有模型全部撞毁。WDCD不是证明模型完美,而是像EuroNCAP一样在上线前找到碰撞断裂点。

WDCD 碰撞测试 Agent安全
357 05-11
3 4 5 6 7

© 1998-2026 赢政天下 版权所有

始于 1998,再启航于 2025。从技术社区到 AI 模型评测,我们一直在做一件事:把复杂的东西讲清楚。

赢政指数 赢政资讯 Winzheng Lab 关于我们 订阅更新 隐私政策 服务条款
AI 研究: WDCD Dataset Konton Prompt it. Play it. MaxTerm MaxModel CyberFate no LLM judging an LLM

本评测独立运营,不接受 AI 模型厂商赞助。赢政指数的每一分都是系统跑出来的。

引用格式:赢政指数 (2026). AI 模型综合排名. https://www.winzheng.com/yz-index/

数据授权:CC BY-NC 4.0