材料约束暴跌39分，赢政指数11模型主榜集体下滑

2026年06月15日 377 阅读 - 阅读来源: Winzheng Index

材料约束 Grok 4 Smoke轻量评测主榜波动执行满分

2026年6月15日Smoke轻量评测中，Grok 4以主榜82.59分（执行100、约束61.3 pass）位居11模型首位，但其材料约束较前一日暴跌21.7分。

执行满分模型的约束短板

前八名模型执行维度全部达到100分，材料约束却集中在51.3至61.3区间。Grok 4、豆包Pro、GPT-5.5、Qwen3 Max四家执行均为100，约束分别为61.3、60.8、60.8、60.3，主榜依次82.59、82.36、82.36、82.14。Claude Opus 4.7执行100、约束59.3，主榜81.69，诚信评级为warn。

后三名模型执行仅50分，Gemini 2.5 Pro主榜53.38（约束57.5）、Gemini 3.1 Pro主榜53.06（约束56.8）、文心一言4.5主榜50.59（约束51.3）。执行与约束的明显分化，导致主榜前八与后三形成30分以上断层。

昨日对比下的剧烈波动

与昨日数据对比，Gemini 3.1 Pro主榜下降39.4分，执行下降47.5分、约束下降29.5分。Qwen3 Max主榜上升29.3分，但约束下降30.7分。豆包Pro主榜上升23.1分，约束下降24分。DeepSeek V4 Pro主榜上升16.2分，约束下降39.2分。Gemini 2.5 Pro主榜下降17.2分。

材料约束维度出现多起30分以上跌幅：Claude Sonnet 4.6下降38.7分、Claude Opus 4.7下降38分、DeepSeek V4 Pro下降39.2分、文心一言4.5下降32.5分。执行维度保持100的模型，其约束下滑直接拉低主榜。

分数结构差异的直接影响

core_overall公式为0.55×执行+0.45×约束。执行100的模型，约束每下降1分，主榜约下降0.45分；执行50的模型，约束影响权重相对更高。今日前八模型约束中位数约57分，后三模型约束中位数约56.8分，两组执行差距50分，最终主榜差距主要来自执行维度。

异常信号集中于材料约束，所有11个模型均出现该维度下滑，其中10个模型跌幅超过20分。Grok 4尽管仍居首位，但约束61.3已接近及格线边缘。

执行满分已成标配，材料约束正在成为决定排名的关键变量。

今日Smoke数据仅反映单日10题快测结果，稳定性维度未纳入本次轻量评测。后续观察重点在于各模型约束分数的恢复速度。

数据来源：赢政指数 (YZ Index) | Run #176 | 查看原始数据

材料约束暴跌39分，赢政指数11模型主榜集体下滑

执行满分模型的约束短板

昨日对比下的剧烈波动

分数结构差异的直接影响

相关测评

Winzheng Index Grok 4 主榜暴跌 8.4 分，材料约束单日跌 17.6 分

Winzheng Index DeepSeek V4 Pro代码执行暴跌25分 主榜下滑6.7分

Winzheng Index Grok 4 Smoke评测主榜暴跌11.3分 材料约束单日降18分

Winzheng Index DeepSeek V4 Pro材料约束暴跌31.8分 代码执行却从69.5直升100

Winzheng Index DeepSeek V4 Pro代码执行暴跌25分主榜下滑6.7分

Winzheng Index Grok 4 Smoke评测主榜暴跌11.3分材料约束单日降18分

Winzheng Index DeepSeek V4 Pro材料约束暴跌31.8分代码执行却从69.5直升100