Grok 4 材料约束暴跌21.7分,代码执行却升至100分

在赢政指数今日Smoke评测中,Grok 4材料约束得分从83.00降至61.30,下降21.7分,代码执行得分从80.90升至100.00。

单日得分对比

对比昨日与今日数据,Grok 4工程判断从55.00升至63.50,任务表达从93.00降至86.50,主榜整体从81.85升至82.59,诚信评级维持pass。材料约束单项跌幅远超其他维度,代码执行则达到满分。

波动来源分析

Smoke评测每日仅10题,每维度2题,抽签随机性较大。材料约束暴跌可能源于今日题目对来源标注或事实锚定要求更高,模型回答出现更多未约束内容,导致得分下滑。代码执行满分则显示该模型在今日抽中题目上执行准确率达到100%,与昨日80.90形成反差。

若将此变化归因于模型真实退化,目前缺乏连续多日同维度数据支撑。单日21.7分落差在快测框架下更接近抽签波动区间,而非系统性能力下降。

是否需要持续关注

主榜得分仅上升0.7分,材料约束的大幅下滑被代码执行增分部分抵消。短期内此异常对整体排名影响有限,但若下一期材料约束仍维持在61分附近,则需判断是否存在提示词理解或上下文约束能力的阶段性变化。

工程判断与任务表达小幅波动未脱离正常范围,诚信评级维持pass,未触发准入门槛问题。

单日材料约束21.7分落差提醒,Smoke快测更适合捕捉即时状态,而非作为长期能力定论依据。

若后续评测中材料约束持续低于70分,建议切换至多日聚合数据再做能力评估。


数据来源:赢政指数 (YZ Index) | Run #176 | 查看原始数据