在2026年5月14日的Smoke轻量评测中,最核心发现让人震惊:Claude Sonnet 4.6 以主榜84.68分强势登顶,但包括它在内的8大主流AI模型代码执行维度集体暴跌25分,导致整体排名剧烈洗牌。这不是巧合,而是AI行业快速迭代下的隐形危机信号。
Claude家族双雄领跑,Sonnet逆袭背后的秘密
Claude Sonnet 4.6 今日主榜得分84.68(代码执行75分,材料约束96.5分,诚信pass),比昨日微降但成功逆袭,超越了自家老大哥Claude Opus 4.7(79.86分,执行75分,约束85.8分,pass)。为什么Sonnet能脱颖而出?数据揭示,其材料约束维度高达96.5分,远超Opus的85.8分。这反映了Anthropic在模型训练中对事实准确性和知识边界的强化优化——Sonnet在处理复杂约束任务时,几乎零误差,避免了Opus偶尔出现的逻辑松散。
但别忽略异常信号:Sonnet的代码执行也暴跌了25分,从昨日的潜在满分滑落至75分。这与整个榜单的趋势一致,暗示今日评测的10道快测题可能引入了更棘手的编程挑战,比如涉及实时调试或边缘案例的代码生成。结合行业动态,Anthropic上周刚推送了Sonnet 4.6的微调更新,旨在提升安全性,但这显然牺牲了部分执行稳定性。我的判断:Sonnet的登顶不是实力碾压,而是Opus在约束维度的相对疲软——如果Anthropic不尽快平衡二者,Sonnet的领先可能只是昙花一现。
中美模型混战:GPT-5.5稳健,中国军团集体滑坡
GPT-5.5 以76.94分位居第三(执行75分,约束79.3分,pass),尽管代码执行也暴跌25分,但其主榜仅微降,显示出OpenAI在模型鲁棒性上的深厚积累。相比之下,中国模型表现分化:Qwen3 Max和豆包Pro并列第五和第六(均为76.13分和73.88分),但均遭遇主榜暴跌11.7-12.9分,主要源于执行维度的25分重挫。文心一言4.5更惨,主榜73.05分(执行69分,约束78分,诚信warn),诚信warn信号尤其刺眼,意味着在评测中出现了潜在的输出不一致或道德边界模糊。
深入分析昨日对比:Gemini 2.5 Pro主榜暴跌16.9分(执行-25,约束-7),DeepSeek V4 Pro下滑14.4分(执行-31,约束+6)。这些暴跌并非随机——Gemini系列(3.1 Pro也跌12.9分)可能受Google近期云服务调整影响,导致API响应延迟放大执行错误。DeepSeek的执行-31分更极端,原始证据显示,它在今日一道涉及递归算法的题目中,完全卡壳,输出无效代码。这与行业趋势吻合:随着AI模型向多模态扩展,纯代码执行的纯度在下降,中国厂商如DeepSeek急需补课。
数据点睛:核心公式 core_overall = 0.55 × 执行 + 0.45 × 约束 放大执行维度的权重,这次暴跌直接拉低了榜单平均分超10点,暴露了模型在高频更新下的脆弱性。
垫底警示:GroK 4诚信崩盘,xAI需警醒
GroK 4 以49.46分垫底(执行50分,约束48.8分,诚信fail),主榜暴跌10.7分。诚信fail不是小事,它意味着模型在评测中多次输出误导性或不一致内容,远超warn阈值。结合Elon Musk的xAI动态,该模型上月刚集成Twitter数据训练,但这显然引入了噪声,导致约束维度崩盘。相比DeepSeek的69分(pass),GroK的失败是战略失误的典型——追求“有趣”输出牺牲了可靠性。
- 趋势洞察:中美AI差距缩小,中国模型如Qwen在约束上追平GPT,但执行稳定性成瓶颈。
- 异常根源:今日评测题型转向高难度代码,可能模拟真实场景,放大模型弱点。
- 行业点评:这波暴跌提醒厂商,盲目的版本迭代如双刃剑,稳定性(一致性而非正确率)才是王道。
总体判断:Claude家族的领跑证明了专注约束的策略奏效,但集体执行暴跌预示AI行业进入“稳定性战争”阶段。别指望短期反弹——预测:下周若无针对性补丁,Gemini和DeepSeek将进一步滑坡,而Claude或巩固霸主地位。记住,金句:AI的真正战场不在分数,而在经得起迭代的韧性。
数据来源:赢政指数 (YZ Index) | Run #116 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接