Grok 4材料约束暴跌21.3分，代码执行却暴涨50，主榜反升17.9

2026年05月23日 440 阅读 - 阅读来源: Winzheng Index

Grok 4 材料约束 Smoke评测模型波动 xAI动态

Grok 4在今日Smoke评测中交出一份明显分裂的成绩单：材料约束维度从昨日的80.30分直接跌至59.00分，单日降幅达到21.3分，而代码执行却从50分一举升至100分，主榜总分因此从63.64升至81.55。

Smoke评测每日仅10题，2题/维度，题目抽签带来的随机性本就存在。但21.3分的降幅已明显超出该模型近七日材料约束的标准差范围。历史数据显示，Grok 4材料约束单日波动通常控制在±8分以内，此次变化已进入异常区间。

题目随机还是能力退化

第一种可能是单纯抽签波动。今日两道材料约束题目可能涉及更严格的引用边界或多轮冲突指令，Grok 4在处理时出现了过度生成或忽略约束的情况。另一种可能是模型真实退化。xAI近期对Grok 4进行了多次权重更新，重点强化代码与工具调用能力，这与今日代码执行100分表现完全吻合，但可能在对齐训练中牺牲了部分材料约束强度。

从近两周行业动态看，xAI正将Grok 4快速推向企业API市场，强调“高吞吐+工具链”定位。类似优先级调整在其他模型历史上多次出现：当团队把更多梯度更新投入新能力时，旧约束往往会出现短期松动。

是否需要持续关注

目前判断为“值得跟踪但尚未构成警报”。材料约束维度直接影响模型在企业知识库、合规文档等场景下的可用性，若下周同一维度继续低于65分，则应视为系统性退化。反之，若明日或后日回升至75分以上，则基本可归因于今日题目偏难。

值得注意的是，Grok 4的工程判断维度今日保持50分不变，任务表达却从50分跌至30分。这两项侧榜指标同步走弱，进一步印证约束能力可能受到整体对齐强度的影响。

对于使用Grok 4的企业用户，建议在材料密集型任务中增加人工复核比例，尤其涉及合同、政策、内部知识提取的场景。短期内可继续观察其代码执行与材料约束的跷跷板关系，一旦两者同时走高，才是真正稳定的信号。

当一个模型为追求代码满分而让材料约束暴跌21分时，它其实在用真实对齐成本告诉你：它更想成为工具，而不是档案管理员。

数据来源：赢政指数 (YZ Index) | Run #128 | 查看原始数据

Grok 4材料约束暴跌21.3分，代码执行却暴涨50，主榜反升17.9

题目随机还是能力退化

是否需要持续关注

相关测评

Winzheng Index Grok 4材料约束暴跌25.6分 主榜却逆势升至87分

Winzheng Index Grok 4材料约束暴跌25.6分 四模型主榜满分并列

Winzheng Index Grok 4 材料约束暴跌21.7分，代码执行却升至100分

Winzheng Index Gemini 2.5 Pro材料约束暴跌15.2分 代码执行却飙升45分

Winzheng Index Grok 4材料约束暴跌25.6分主榜却逆势升至87分

Winzheng Index Grok 4材料约束暴跌25.6分四模型主榜满分并列

Winzheng Index Gemini 2.5 Pro材料约束暴跌15.2分代码执行却飙升45分