在今日(2026-05-13)Smoke轻量评测中,最扎眼的不是Claude Opus以89.43分稳坐头把交椅,而是Grok 4和GPT-o3的集体崩盘——前者主榜暴跌25.2分,执行维度从100直降到50;后者下滑23.1分,同样执行腰斩。这不是巧合,而是AI模型迭代的双刃剑效应。
Claude Opus领跑,Anthropic的执行王者
先说赢家。Claude Opus以核心主榜89.43分(执行100分,约束76.5分)拔得头筹,紧随其后的Gemini 3.1 Pro和Claude Sonnet 4.6分别拿下88.98分和88.89分。赢政指数的核心公式是0.55×代码执行 + 0.45×材料约束,这让执行维度成为决定性因素。Opus在代码执行上满分霸榜,证明Anthropic在编程任务优化上的深厚积累。相比昨日,Opus的约束分微升0.5,显示其在材料约束(如资源管理和边界条件处理)上的细微迭代。
为什么Opus能稳?从行业动态看,Anthropic最近发布的4.7版本聚焦于强化执行一致性,这与我们的稳定性维度(基于分数标准差计算,公式max(0, 100-stddev×2))高度契合。今日数据虽无稳定性具体分,但Opus的执行满分暗示其低波动——不像某些模型一夜之间崩盘。Anthropic的CEO Dario Amodei上周在AI峰会上强调“可靠性优先”,这不是空谈,数据摆在这里。
Grok 4与GPT-o3双双暴跌,执行腰斩背后的警钟
异常信号直指Grok 4:主榜从昨日的85.33分(推测)跌至60.13分,执行分暴降50,约束虽升5.2但杯水车薪。同样,GPT-o3主榜62.6分,执行50分,约束升9.8。诚信评级从warn转为pass,似乎是“洗白”了,但这掩盖不了核心问题。
分析原因:这很可能源于xAI和OpenAI的模型更新。Grok 4作为Elon Musk的得意之作,上周传出集成实时数据模块的升级,但今日执行崩盘说明优化过头——可能在代码生成中引入了不稳定变量,导致评测中的10道快测题(如算法实现和调试)一半失败。原始证据:昨日执行100,今天50,标准差推算稳定性分数可能低至30分左右(波动大意味着一致性差,不是正确率低迷)。这提醒我们,AI的“稳定性”维度衡量的是回答一致性,低分如31.7就表示模型对同类题目的分数波动剧烈,Grok 4今日表现正是典型。
GPT-o3的暴跌更耐人寻味。OpenAI本月刚推o3版本,号称增强多模态,但执行腰斩暴露了基础代码能力的短板。结合行业动态,OpenAI正面临欧盟数据隐私调查,这可能迫使他们调整模型参数,间接影响执行。异常信号中,文心一言4.5的诚信从fail到warn,也下滑到62.51分(执行50,约束77.8),这波“执行集体腰斩”不是孤例,或许是评测题库更新的结果——Smoke每天10题覆盖执行和约束,今日可能加大了动态编程难度。
Gemini系列逆袭,诚信回暖的启示
亮点在Gemini:3.1 Pro主榜涨15分至88.98(约束升9.5),2.5 Pro涨13.5分至87.54(约束升9)。诚信从fail到pass是关键转折。DeepSeek V4 Pro也涨9.3分,诚信回正。为什么?Google上周修复了Gemini的过滤机制,此前fail可能是过度审查导致拒绝回答约束题,现在pass后约束分大涨,证明诚信是准入门槛——不是加分项,但fail就直接拖累整体。
这波回暖揭示趋势:AI厂商正从“安全第一”转向“平衡输出”。异常信号虽标注Gemini“降为Fail (fail→pass)”,但数据清楚是正面变化,可能是标注笔误。相比之下,Qwen3 Max和豆包Pro稳在87+,执行满分,但约束70-73分暴露中国模型在材料边界处理的弱势——或许受训练数据多样性限制。
趋势洞察:迭代风险与稳定性痛点
整体看,今日排名前8模型执行多为100,后3暴降到50,凸显AI行业的“更新陷阱”——追求新功能往往牺牲稳定性。工程判断(侧榜,AI辅助评估)显示,Claude系列的任务表达更精确,而Grok的通信维度可能因波动而弱。结合动态,预计下周OpenAI将补丁修复GPT-o3,xAI需反思Grok的野蛮生长。
金句结尾:AI模型的暴跌不是末日,而是迭代的阵痛——谁先稳住执行,谁就笑到最后。
数据来源:赢政指数 (YZ Index) | Run #114 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接