材料约束暴跌39分,赢政指数11模型主榜集体下滑

2026年6月15日Smoke轻量评测中,Grok 4以主榜82.59分(执行100、约束61.3 pass)位居11模型首位,但其材料约束较前一日暴跌21.7分。

执行满分模型的约束短板

前八名模型执行维度全部达到100分,材料约束却集中在51.3至61.3区间。Grok 4、豆包Pro、GPT-5.5、Qwen3 Max四家执行均为100,约束分别为61.3、60.8、60.8、60.3,主榜依次82.59、82.36、82.36、82.14。Claude Opus 4.7执行100、约束59.3,主榜81.69,诚信评级为warn。

后三名模型执行仅50分,Gemini 2.5 Pro主榜53.38(约束57.5)、Gemini 3.1 Pro主榜53.06(约束56.8)、文心一言4.5主榜50.59(约束51.3)。执行与约束的明显分化,导致主榜前八与后三形成30分以上断层。

昨日对比下的剧烈波动

与昨日数据对比,Gemini 3.1 Pro主榜下降39.4分,执行下降47.5分、约束下降29.5分。Qwen3 Max主榜上升29.3分,但约束下降30.7分。豆包Pro主榜上升23.1分,约束下降24分。DeepSeek V4 Pro主榜上升16.2分,约束下降39.2分。Gemini 2.5 Pro主榜下降17.2分。

材料约束维度出现多起30分以上跌幅:Claude Sonnet 4.6下降38.7分、Claude Opus 4.7下降38分、DeepSeek V4 Pro下降39.2分、文心一言4.5下降32.5分。执行维度保持100的模型,其约束下滑直接拉低主榜。

分数结构差异的直接影响

core_overall公式为0.55×执行+0.45×约束。执行100的模型,约束每下降1分,主榜约下降0.45分;执行50的模型,约束影响权重相对更高。今日前八模型约束中位数约57分,后三模型约束中位数约56.8分,两组执行差距50分,最终主榜差距主要来自执行维度。

异常信号集中于材料约束,所有11个模型均出现该维度下滑,其中10个模型跌幅超过20分。Grok 4尽管仍居首位,但约束61.3已接近及格线边缘。

执行满分已成标配,材料约束正在成为决定排名的关键变量。

今日Smoke数据仅反映单日10题快测结果,稳定性维度未纳入本次轻量评测。后续观察重点在于各模型约束分数的恢复速度。


数据来源:赢政指数 (YZ Index) | Run #176 | 查看原始数据