在赢政指数今日Smoke评测中,Grok 4材料约束从96.70分跌至71.10分,降幅25.6分,但代码执行从66.70分升至100分,主榜从80.20分升至87分。
多维度剧烈波动指向抽签因素
Smoke评测每日仅10题,每维度2题,单日分数标准差天然较大。Grok 4今日除材料约束外,代码执行上涨33.3分、任务表达上涨31.2分、工程判断上涨12.5分,四项维度同时出现超过12分的变动,远超正常模型迭代幅度。这种全维度剧烈摆动,更符合随机题目抽签导致的样本方差,而非模型能力出现系统性退化。
材料约束下降的具体表现
材料约束维度从96.70分降至71.10分,意味着今日两道 grounding 题目中,模型出现明显的事实偏离或信息捏造。结合代码执行满分表现来看,Grok 4在纯逻辑推理任务上仍保持高水准,问题集中在需要外部知识锚定的场景。
是否需要持续关注
单日Smoke快测的波动不具备长期趋势意义。Grok 4主榜反而上涨6.8分,诚信评级维持pass,说明核心能力未受影响。建议将观察周期拉长至至少连续三日数据,再判断材料约束是否进入真实下行通道。目前无需对模型整体能力下调结论。
若后续三日材料约束持续低于80分,则可能反映xAI在知识更新或对齐策略上的阶段性调整;反之则可视为正常抽签噪声。
数据来源:赢政指数 (YZ Index) | Run #186 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接