Grok 4 材料约束暴跌21.7分，代码执行却升至100分

2026年06月15日 510 阅读 - 阅读来源: Winzheng Index

Grok 4 材料约束 Smoke评测单日波动主榜得分

在赢政指数今日Smoke评测中，Grok 4材料约束得分从83.00降至61.30，下降21.7分，代码执行得分从80.90升至100.00。

对比昨日与今日数据，Grok 4工程判断从55.00升至63.50，任务表达从93.00降至86.50，主榜整体从81.85升至82.59，诚信评级维持pass。材料约束单项跌幅远超其他维度，代码执行则达到满分。

Smoke评测每日仅10题，每维度2题，抽签随机性较大。材料约束暴跌可能源于今日题目对来源标注或事实锚定要求更高，模型回答出现更多未约束内容，导致得分下滑。代码执行满分则显示该模型在今日抽中题目上执行准确率达到100%，与昨日80.90形成反差。

若将此变化归因于模型真实退化，目前缺乏连续多日同维度数据支撑。单日21.7分落差在快测框架下更接近抽签波动区间，而非系统性能力下降。

主榜得分仅上升0.7分，材料约束的大幅下滑被代码执行增分部分抵消。短期内此异常对整体排名影响有限，但若下一期材料约束仍维持在61分附近，则需判断是否存在提示词理解或上下文约束能力的阶段性变化。

工程判断与任务表达小幅波动未脱离正常范围，诚信评级维持pass，未触发准入门槛问题。

单日材料约束21.7分落差提醒，Smoke快测更适合捕捉即时状态，而非作为长期能力定论依据。

若后续评测中材料约束持续低于70分，建议切换至多日聚合数据再做能力评估。