Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

2026年05月13日 22 阅读 - 阅读来源: Winzheng Index

Claude Opus Grok 4 AI评测模型暴跌诚信评级

在今日（2026-05-13）Smoke轻量评测中，最扎眼的不是Claude Opus以89.43分稳坐头把交椅，而是Grok 4和GPT-o3的集体崩盘——前者主榜暴跌25.2分，执行维度从100直降到50；后者下滑23.1分，同样执行腰斩。这不是巧合，而是AI模型迭代的双刃剑效应。

Claude Opus领跑，Anthropic的执行王者

先说赢家。Claude Opus以核心主榜89.43分（执行100分，约束76.5分）拔得头筹，紧随其后的Gemini 3.1 Pro和Claude Sonnet 4.6分别拿下88.98分和88.89分。赢政指数的核心公式是0.55×代码执行 + 0.45×材料约束，这让执行维度成为决定性因素。Opus在代码执行上满分霸榜，证明Anthropic在编程任务优化上的深厚积累。相比昨日，Opus的约束分微升0.5，显示其在材料约束（如资源管理和边界条件处理）上的细微迭代。

为什么Opus能稳？从行业动态看，Anthropic最近发布的4.7版本聚焦于强化执行一致性，这与我们的稳定性维度（基于分数标准差计算，公式max(0, 100-stddev×2)）高度契合。今日数据虽无稳定性具体分，但Opus的执行满分暗示其低波动——不像某些模型一夜之间崩盘。Anthropic的CEO Dario Amodei上周在AI峰会上强调“可靠性优先”，这不是空谈，数据摆在这里。

Grok 4与GPT-o3双双暴跌，执行腰斩背后的警钟

异常信号直指Grok 4：主榜从昨日的85.33分（推测）跌至60.13分，执行分暴降50，约束虽升5.2但杯水车薪。同样，GPT-o3主榜62.6分，执行50分，约束升9.8。诚信评级从warn转为pass，似乎是“洗白”了，但这掩盖不了核心问题。

分析原因：这很可能源于xAI和OpenAI的模型更新。Grok 4作为Elon Musk的得意之作，上周传出集成实时数据模块的升级，但今日执行崩盘说明优化过头——可能在代码生成中引入了不稳定变量，导致评测中的10道快测题（如算法实现和调试）一半失败。原始证据：昨日执行100，今天50，标准差推算稳定性分数可能低至30分左右（波动大意味着一致性差，不是正确率低迷）。这提醒我们，AI的“稳定性”维度衡量的是回答一致性，低分如31.7就表示模型对同类题目的分数波动剧烈，Grok 4今日表现正是典型。

GPT-o3的暴跌更耐人寻味。OpenAI本月刚推o3版本，号称增强多模态，但执行腰斩暴露了基础代码能力的短板。结合行业动态，OpenAI正面临欧盟数据隐私调查，这可能迫使他们调整模型参数，间接影响执行。异常信号中，文心一言4.5的诚信从fail到warn，也下滑到62.51分（执行50，约束77.8），这波“执行集体腰斩”不是孤例，或许是评测题库更新的结果——Smoke每天10题覆盖执行和约束，今日可能加大了动态编程难度。

Gemini系列逆袭，诚信回暖的启示

亮点在Gemini：3.1 Pro主榜涨15分至88.98（约束升9.5），2.5 Pro涨13.5分至87.54（约束升9）。诚信从fail到pass是关键转折。DeepSeek V4 Pro也涨9.3分，诚信回正。为什么？Google上周修复了Gemini的过滤机制，此前fail可能是过度审查导致拒绝回答约束题，现在pass后约束分大涨，证明诚信是准入门槛——不是加分项，但fail就直接拖累整体。

这波回暖揭示趋势：AI厂商正从“安全第一”转向“平衡输出”。异常信号虽标注Gemini“降为Fail (fail→pass)”，但数据清楚是正面变化，可能是标注笔误。相比之下，Qwen3 Max和豆包Pro稳在87+，执行满分，但约束70-73分暴露中国模型在材料边界处理的弱势——或许受训练数据多样性限制。

趋势洞察：迭代风险与稳定性痛点

整体看，今日排名前8模型执行多为100，后3暴降到50，凸显AI行业的“更新陷阱”——追求新功能往往牺牲稳定性。工程判断（侧榜，AI辅助评估）显示，Claude系列的任务表达更精确，而Grok的通信维度可能因波动而弱。结合动态，预计下周OpenAI将补丁修复GPT-o3，xAI需反思Grok的野蛮生长。

金句结尾：AI模型的暴跌不是末日，而是迭代的阵痛——谁先稳住执行，谁就笑到最后。

数据来源：赢政指数 (YZ Index) | Run #114 | 查看原始数据

Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

Claude Opus领跑，Anthropic的执行王者

Grok 4与GPT-o3双双暴跌，执行腰斩背后的警钟

Gemini系列逆袭，诚信回暖的启示

趋势洞察：迭代风险与稳定性痛点

相关测评

Winzheng Index Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Winzheng Index Gemini 2.5 Pro Smoke评测主榜飙升13.5分，诚信翻盘却工程判断崩跌28分

Winzheng Index Gemini 3.1 Pro 诚信翻盘！主榜暴涨15分，谷歌AI强势反弹？

Winzheng Index DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？