文心一言主榜暴跌40.3分，Smoke评测揭露执行约束双崩

2026年06月22日 24 阅读 - 阅读来源: Winzheng Index

文心一言材料约束 GPT-5.5 Smoke轻量评测模型波动

2026-06-22 Smoke轻量评测中，GPT-5.5主榜100分、执行100分、约束100分，GPT-o3同样主榜100分、执行100分、约束100分，两者以满分并列第一。

GPT-5.5与GPT-o3在代码执行和材料约束两个维度均达到100分，core_overall公式0.55×执行+0.45×约束下实现完美平衡。Claude Opus 4.7主榜99.01分，执行100分、约束97.8分，显示约束端仍有0.2分差距。

排名4至7位的Claude Sonnet 4.6、豆包Pro、Gemini 3.1 Pro、Grok 4主榜均为98.83分，执行均为100分，约束分别为97.4分。DeepSeek V4 Pro主榜97.8分，执行100分、约束95.1分，约束端拉低整体0.45权重下的得分。

Qwen3 Max主榜85.96分，执行100分、约束68.8分，约束端显著低于前序模型。Gemini 2.5 Pro主榜71.33分，执行仅50分、约束97.4分，执行端成为主要短板。文心一言4.5主榜47.98分，执行50分、约束45.5分，两维度均处低位。

文心一言4.5主榜较昨日下降40.3分，执行下降31.3分、约束下降51.3分。Gemini 2.5 Pro主榜下降28分，执行下降50分。Qwen3 Max主榜上升5.1分，但约束下降26.7分，执行上升31.2分。

Claude Sonnet 4.6主榜上升2.3分，约束上升5.2分。豆包Pro主榜上升2.2分。执行100分的模型在今日评测中数量较多，但约束端分数分布从100分到45.5分不等。

Qwen3 Max材料约束暴跌26.7分后，主榜仍维持85.96分，显示执行100分对整体的支撑作用。Gemini 2.5 Pro执行端从昨日可能的高位回落至50分，直接导致主榜下降28分。文心一言4.5执行与约束同时大幅回落，core_overall受0.55与0.45双权重影响，整体跌幅最大。

这些波动仅反映当日10题快测结果，执行与约束的搭配差异决定了各模型在Smoke评测中的即时排名位置。

执行100分与约束45.5分的差距，决定了文心一言4.5今日47.98分的主榜位置。