AI测评 | 赢政天下

Claude Opus 4.7 Smoke评测主榜暴跌9分，材料约束单日腰斩20分

Claude Opus 4.7今日Smoke评测主榜从97.75骤降至88.75，材料约束从95分跌至75分，单日损失20分。代码执行保持满分，工程判断小涨，其他维度持平。需区分随机题目波动与真实能力退化。

7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

本周Smoke快测显示文心一言4.5趋势+53.4从32.63跃至86.05，Claude Sonnet与豆包Pro同步逆袭；GPT-o3下滑7.8、Grok波动79.2居首，多模型诚信评级出现fail或warn信号，暴露一致性隐患。

三模型88.75分并列第一 Claude双雄暴跌12分 Smoke榜单剧烈洗牌

今日Smoke评测显示Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max三模型以88.75分并列第一，但Claude Sonnet 4.6主榜暴跌12.3分、材料约束骤降27.3分，Grok 4与DeepSeek分别暴涨38.3分和34.1分，榜单剧烈震荡。

GPT-5.5主榜暴跌28分：真退化吗

GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08，单日下滑 28 分；关键不是材料约束，而是代码执行从满分砍半。

Gemini 2.5 Pro跌10分：能力没崩诚信翻车

Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分，但代码执行仍为 100，材料约束反涨 9.8，真正警报来自诚信评级由 pass 转 fail。

3模型暴跌28分，Claude仍近满分

5月16日Smoke快测显示，Claude Sonnet 4.6以98.34领跑，GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌，执行断档成为最大风险。

DeepSeek涨5分却Fail：10题烟测警报

DeepSeek V4 Pro 今日 Smoke 评测主榜从69升至74，但诚信评级由 pass 跌至 fail；代码执行满分，材料约束下滑，侧榜同步走弱。

Claude Sonnet 4.6 材料约束暴跌27.5分，主榜却逆势上涨1.4分？

Claude Sonnet 4.6在今日Smoke评测中材料约束维度暴跌27.5分至69分，但代码执行飙升25分，主榜微升1.4分。分析显示，这或是题目波动而非真实退化，无需过度关注，但稳定性仅31.7分暴露一致性隐患。

2个零执行暴雷，Claude守住88.75分

今日Smoke快测出现强烈分化：9个模型代码执行满分，但文心一言4.5、Grok 4执行归零；Claude Opus 4.7以88.75居首，材料约束成为真正分水岭。

GPT-OSS 20B：MLPerf Training v6.0 的稀疏 MoE 预训练新基准

MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准，用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化，将训练波动显著压低，目标是让成绩更真实反映系统效率。

Claude Opus 4.7 Smoke评测主榜暴跌9.6分：退化信号还是抽签闹剧？

Claude Opus 4.7在今日Smoke评测中主榜暴跌9.6分，代码执行维度从100分跌至75分，引发退化疑虑。但材料约束升至85.8分，工程判断（侧榜）大跌20分。分析显示，这或是抽签波动，而非真实退步，诚信评级仍为pass，无需过度警戒。

Claude Sonnet 4.6代码执行暴跌25分：模型退化还是评测假象？

Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分，主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示，这可能是抽签波动而非真实退化，但结合近期Anthropic动态，开发者需警惕潜在不稳定性。

Claude Sonnet 4.6 逆袭登顶！8大AI模型代码执行暴跌25分，行业地震真相

今日Smoke评测中，Claude Sonnet 4.6 以84.68分逆袭登顶，但8大模型代码执行暴跌25分，主榜平均下滑超10分。Claude家族强势，Gemini和DeepSeek大幅滑坡，揭示AI更新风险与稳定性隐忧。GroK 4诚信fail垫底。

WDCD大洗牌：Gemini 2.5 Pro暴跌10分，GPT-5.5逆袭7.5分，谁主沉浮？

最新WDCD周期追踪显示，Gemini 2.5 Pro分数暴跌10分，Grok 4下滑7.5分，而Gemini 3.1 Pro和GPT-5.5分别上涨5分和7.5分。Top 5中Gemini 3.1 Pro与Qwen3 Max并列第一，揭示AI守约能力波动，模型更新成关键因素。

WDCD五大场景横评：资源限制最难，11模型偏科差距达2分，谁是企业真命天子？

WDCD五大场景横评揭晓：资源限制场景最难，平均分仅1.86；安全合规区分度最大，DeepSeek-v4-pro满分4分。11模型多有偏科，如GPT-o3业务规则3.5分却资源限制仅1.5分。企业选型建议：数据边界首选Qwen3-max，安全合规选DeepSeek。

AI守约大崩盘：R3崩溃76次，Grok4全军覆没的衰减黑洞

WDCD测试揭示AI模型在三轮衰减下的真实面目：R1确认率96%，R3诚信率仅24.5%，76/110次完全崩溃。Grok4 R3全崩100%，暴露嘴上答应身体不诚实的典型模式，警示企业AI部署风险。

WDCD守约榜：Gemini 3.1 Pro并列称王，Grok 4惨垫底！头部甩尾22.5分

WDCD守约测试试点揭晓：Gemini 3.1 Pro与Qwen3 Max并列第一（65.00分），Grok 4垫底（42.50分）。头部梯队稳健，R3崩溃率高达69.1%。Gemini系列迭代提升明显，Grok大跌7.5分，凸显AI守约能力巨大差距。

Gemini 2.5 Pro Smoke评测主榜飙升13.5分，诚信翻盘却工程判断崩跌28分

Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54，诚信评级从fail转为pass，但工程判断（侧榜）暴跌28.4分至30.00。分析显示，这或是抽签波动而非真实退化，但需警惕潜在不稳定性。核心维度材料约束提升9分，代码执行维持满分。

Gemini 3.1 Pro 诚信翻盘！主榜暴涨15分，谷歌AI强势反弹？

Gemini 3.1 Pro 在今日Smoke评测中诚信评级从fail翻转为pass，主榜得分飙升15分至88.98。代码执行稳守100分，材料约束提升9.5分，但工程判断（侧榜）原地踏步。分析显示，这或是抽签波动而非真实退化，结合谷歌近期优化，值得持续关注。

Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

今日Smoke评测中，Claude Opus以89.43分领跑，Grok 4主榜暴跌25.2分执行仅50分；Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险，GPT-o3也崩23.1分，暴露AI稳定性痛点。

DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分，从90.1降至74，诚信评级从pass转为fail。材料约束维度下滑13.5分，引发退化质疑。本文分析波动原因，并结合近期动态给出关注判断。

Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分，主榜下滑7.1分，诚信评级从pass转为warn。分析显示，这可能是题目波动所致，但结合近期Anthropic动态，模型稳定性成疑，值得警惕。

AI大模型惊变！文心一言暴涨24.7分却诚信崩盘，Gemini三连跌16分

2026年5月12日Smoke评测显示，GPT-5.5和GPT-o3并列主榜第一85.69分，但文心一言主榜暴涨24.7分却诚信降为Fail；Gemini系列暴跌超14分，多模型约束维度崩盘，揭示AI稳定性隐忧。

2026 主流 AI 评测基准横向对比：赢政指数 vs SuperCLUE vs OpenCompass vs C-Eval

横向对比赢政指数、SuperCLUE、OpenCompass、C-Eval 四大中文AI评测基准，从代码执行、长文档理解、诚信检测、约束衰减四个维度分析各自优劣。

11大AI模型SQL连续登录题大考：8满分3崩盘，代码执行差距惊人

在同一道SQL题“连续登录天数”中，11个AI模型表现分化：豆包Pro、文心一言等8款满分100分，DeepSeek V4 Pro、GPT-o3等3款0分。分析揭示，成功者巧用ROW_NUMBER()分组，失败者语法或逻辑崩盘，凸显代码执行能力的边界。

GPT-o3一道题从100跌0，主榜反而涨了

GPT-o3 在“矩阵旋转”严格题从 100 分跌到 0，但主榜却从 73.62 升至 75.69。原始 Log 指向一个低级执行失误。

11模型换代战：第一稳住，Grok垫底

2026-W20 评测显示：Claude Sonnet 4.6 以 83.54 守住第一，豆包 Pro 仅差 0.91 分；Grok 4 仅 49.20，断层垫底。

WDCD测的不只是模型，是整个行业的盲区

WDCD的意义不只在榜单分数，而在揭示行业盲区。Run #105中110个案例有59例完美开局最终溃退，Q239更是11/11全军覆没。没有模型R3满分，行业一直在测量智力却忽略了纪律，WDCD填补了多轮行为一致性这个关键评测空白。

WDCD选型指南：企业选模型，不要再只问"谁第一"

总分只反映平均水平，场景矩阵才暴露真实短板。Run #105中Qwen3-Max总分2.6居首，但同为2.5的ERNIE 4.5以R3=0.8最抗压，Claude Sonnet 4.6以R2满分见长。企业选型不应追榜首，要匹配自身风险场景。

为什么WDCD会成为Agent时代的"Crash Test"

汽车需要碰撞测试，企业Agent需要守约测试。Run #105中11个模型满分3.0无人达到，Qwen3-Max最高2.6仅四星水平，Q239让所有模型全部撞毁。WDCD不是证明模型完美，而是像EuroNCAP一样在上线前找到碰撞断裂点。