文心一言主榜暴跌40.3分,Smoke评测揭露执行约束双崩

2026-06-22 Smoke轻量评测中,GPT-5.5主榜100分、执行100分、约束100分,GPT-o3同样主榜100分、执行100分、约束100分,两者以满分并列第一。

满分模型的结构特征

GPT-5.5与GPT-o3在代码执行和材料约束两个维度均达到100分,core_overall公式0.55×执行+0.45×约束下实现完美平衡。Claude Opus 4.7主榜99.01分,执行100分、约束97.8分,显示约束端仍有0.2分差距。

执行与约束的强弱搭配差异

排名4至7位的Claude Sonnet 4.6、豆包Pro、Gemini 3.1 Pro、Grok 4主榜均为98.83分,执行均为100分,约束分别为97.4分。DeepSeek V4 Pro主榜97.8分,执行100分、约束95.1分,约束端拉低整体0.45权重下的得分。

Qwen3 Max主榜85.96分,执行100分、约束68.8分,约束端显著低于前序模型。Gemini 2.5 Pro主榜71.33分,执行仅50分、约束97.4分,执行端成为主要短板。文心一言4.5主榜47.98分,执行50分、约束45.5分,两维度均处低位。

昨日对比下的异常波动

文心一言4.5主榜较昨日下降40.3分,执行下降31.3分、约束下降51.3分。Gemini 2.5 Pro主榜下降28分,执行下降50分。Qwen3 Max主榜上升5.1分,但约束下降26.7分,执行上升31.2分。

Claude Sonnet 4.6主榜上升2.3分,约束上升5.2分。豆包Pro主榜上升2.2分。执行100分的模型在今日评测中数量较多,但约束端分数分布从100分到45.5分不等。

异常信号的结构解读

Qwen3 Max材料约束暴跌26.7分后,主榜仍维持85.96分,显示执行100分对整体的支撑作用。Gemini 2.5 Pro执行端从昨日可能的高位回落至50分,直接导致主榜下降28分。文心一言4.5执行与约束同时大幅回落,core_overall受0.55与0.45双权重影响,整体跌幅最大。

这些波动仅反映当日10题快测结果,执行与约束的搭配差异决定了各模型在Smoke评测中的即时排名位置。

执行100分与约束45.5分的差距,决定了文心一言4.5今日47.98分的主榜位置。

数据来源:赢政指数 (YZ Index) | Run #191 | 查看原始数据