Claude Sonnet 4.6 逆袭登顶!8大AI模型代码执行暴跌25分,行业地震真相
今日Smoke评测中,Claude Sonnet 4.6 以84.68分逆袭登顶,但8大模型代码执行暴跌25分,主榜平均下滑超10分。Claude家族强势,Gemini和DeepSeek大幅滑坡,揭示AI更新风险与稳定性隐忧。GroK 4诚信fail垫底。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
今日Smoke评测中,Claude Sonnet 4.6 以84.68分逆袭登顶,但8大模型代码执行暴跌25分,主榜平均下滑超10分。Claude家族强势,Gemini和DeepSeek大幅滑坡,揭示AI更新风险与稳定性隐忧。GroK 4诚信fail垫底。
今日Smoke评测中,Claude Opus以89.43分领跑,Grok 4主榜暴跌25.2分执行仅50分;Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险,GPT-o3也崩23.1分,暴露AI稳定性痛点。
横向对比赢政指数、SuperCLUE、OpenCompass、C-Eval 四大中文AI评测基准,从代码执行、长文档理解、诚信检测、约束衰减四个维度分析各自优劣。
AI评测排行榜充斥虚假繁荣:AI自评、假跑代码、单次排名和赞助操控让99%结果不可信。YZ Index通过真跑沙箱、准确度检查、滚动均值和零AI裁判,提供无偏见评估,颠覆行业标准。
现有AI评测只测能力,却忽略守约可靠性。YZ Index的WDCD测试通过3轮设计和30道企业场景题,填补空白,透明判分揭示AI抗压与遗忘问题。深度解读其创新价值,帮助企业选可靠AI。
DeepSeek V3在最新评测中稳定性得分从53.4分骤降至32.0分,跌幅达21.4分。尽管代码执行和材料约束等维度大幅提升,但模型输出一致性严重恶化,标准差增大意味着相同输入可能产生质量差异巨大的回答。
豆包Pro本周评测显示稳定性维度大幅下跌19.8分至34.7分,成为各维度中唯一负增长指标。分析发现模型在相同问题上给出差异化回答,反映出内部决策机制可能存在随机性过高的问题。
本周赢政指数评测体系捕捉到一个罕见现象:11个主流AI模型中有10个在"任务表达"(communication_raw)维度出现同步提升,这种大规模同向变动在以往评测中极为少见。与此同时,Claude Opus 4.6独树一帜,成为唯一在"材料约束"(grounding_raw)维度取得突破的模型。
Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分,在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分,但遇到真实故障场景时的表现令人担忧。
GPT-o3本周可用性暴跌31分,从满分跌至69分。长上下文能力崩盘33.5分,稳定性下降25分。编程能力虽提升23分,但在关键生产场景的表现令人担忧。这不是普通的性能波动,而是架构级的系统性问题。
豆包Pro本周稳定性得分暴跌19.8分至34.7分,成为所有维度中唯一负增长指标。通过分析失分题目发现,模型在处理复杂推理、数学计算和代码生成任务时出现明显退化,暴露出可能的模型更新或系统调整问题。
Qwen Max本周评测稳定性维度大幅下跌22.8分,从53.0降至30.2。尽管编程和长上下文能力显著提升,但在多个基础任务上出现严重质量问题,疑似模型版本更新导致的不稳定现象。