Grok 4在今日Smoke评测中交出一份明显分裂的成绩单:材料约束维度从昨日的80.30分直接跌至59.00分,单日降幅达到21.3分,而代码执行却从50分一举升至100分,主榜总分因此从63.64升至81.55。
Smoke评测每日仅10题,2题/维度,题目抽签带来的随机性本就存在。但21.3分的降幅已明显超出该模型近七日材料约束的标准差范围。历史数据显示,Grok 4材料约束单日波动通常控制在±8分以内,此次变化已进入异常区间。
题目随机还是能力退化
第一种可能是单纯抽签波动。今日两道材料约束题目可能涉及更严格的引用边界或多轮冲突指令,Grok 4在处理时出现了过度生成或忽略约束的情况。另一种可能是模型真实退化。xAI近期对Grok 4进行了多次权重更新,重点强化代码与工具调用能力,这与今日代码执行100分表现完全吻合,但可能在对齐训练中牺牲了部分材料约束强度。
从近两周行业动态看,xAI正将Grok 4快速推向企业API市场,强调“高吞吐+工具链”定位。类似优先级调整在其他模型历史上多次出现:当团队把更多梯度更新投入新能力时,旧约束往往会出现短期松动。
是否需要持续关注
目前判断为“值得跟踪但尚未构成警报”。材料约束维度直接影响模型在企业知识库、合规文档等场景下的可用性,若下周同一维度继续低于65分,则应视为系统性退化。反之,若明日或后日回升至75分以上,则基本可归因于今日题目偏难。
值得注意的是,Grok 4的工程判断维度今日保持50分不变,任务表达却从50分跌至30分。这两项侧榜指标同步走弱,进一步印证约束能力可能受到整体对齐强度的影响。
对于使用Grok 4的企业用户,建议在材料密集型任务中增加人工复核比例,尤其涉及合同、政策、内部知识提取的场景。短期内可继续观察其代码执行与材料约束的跷跷板关系,一旦两者同时走高,才是真正稳定的信号。
当一个模型为追求代码满分而让材料约束暴跌21分时,它其实在用真实对齐成本告诉你:它更想成为工具,而不是档案管理员。
数据来源:赢政指数 (YZ Index) | Run #128 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接