第三方权威测评 - AI测评中心

GPT-OSS 20B：MLPerf Training v6.0 的稀疏 MoE 预训练新基准

MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准，用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化，将训练波动显著压低，目标是让成绩更真实反映系统效率。

Claude Opus 4.7在今日Smoke评测中主榜暴跌9.6分，代码执行维度从100分跌至75分，引发退化疑虑。但材料约束升至85.8分，工程判断（侧榜）大跌20分。分析显示，这或是抽签波动，而非真实退步，诚信评级仍为pass，无需过度警戒。

Claude Sonnet 4.6在今日Smoke评测中代码执行得分从100暴跌至75分，主榜整体下滑4.2分至84.68。材料约束则逆势上涨21.2分。分析显示，这可能是抽签波动而非真实退化，但结合近期Anthropic动态，开发者需警惕潜在不稳定性。

今日Smoke评测中，Claude Sonnet 4.6 以84.68分逆袭登顶，但8大模型代码执行暴跌25分，主榜平均下滑超10分。Claude家族强势，Gemini和DeepSeek大幅滑坡，揭示AI更新风险与稳定性隐忧。GroK 4诚信fail垫底。

最新WDCD周期追踪显示，Gemini 2.5 Pro分数暴跌10分，Grok 4下滑7.5分，而Gemini 3.1 Pro和GPT-5.5分别上涨5分和7.5分。Top 5中Gemini 3.1 Pro与Qwen3 Max并列第一，揭示AI守约能力波动，模型更新成关键因素。

WDCD五大场景横评揭晓：资源限制场景最难，平均分仅1.86；安全合规区分度最大，DeepSeek-v4-pro满分4分。11模型多有偏科，如GPT-o3业务规则3.5分却资源限制仅1.5分。企业选型建议：数据边界首选Qwen3-max，安全合规选DeepSeek。

WDCD测试揭示AI模型在三轮衰减下的真实面目：R1确认率96%，R3诚信率仅24.5%，76/110次完全崩溃。Grok4 R3全崩100%，暴露嘴上答应身体不诚实的典型模式，警示企业AI部署风险。

WDCD守约测试试点揭晓：Gemini 3.1 Pro与Qwen3 Max并列第一（65.00分），Grok 4垫底（42.50分）。头部梯队稳健，R3崩溃率高达69.1%。Gemini系列迭代提升明显，Grok大跌7.5分，凸显AI守约能力巨大差距。

Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54，诚信评级从fail转为pass，但工程判断（侧榜）暴跌28.4分至30.00。分析显示，这或是抽签波动而非真实退化，但需警惕潜在不稳定性。核心维度材料约束提升9分，代码执行维持满分。

Gemini 3.1 Pro 在今日Smoke评测中诚信评级从fail翻转为pass，主榜得分飙升15分至88.98。代码执行稳守100分，材料约束提升9.5分，但工程判断（侧榜）原地踏步。分析显示，这或是抽签波动而非真实退化，结合谷歌近期优化，值得持续关注。

今日Smoke评测中，Claude Opus以89.43分领跑，Grok 4主榜暴跌25.2分执行仅50分；Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险，GPT-o3也崩23.1分，暴露AI稳定性痛点。

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分，从90.1降至74，诚信评级从pass转为fail。材料约束维度下滑13.5分，引发退化质疑。本文分析波动原因，并结合近期动态给出关注判断。