2026-06-22 Smoke轻量评测中,GPT-5.5主榜100分、执行100分、约束100分,GPT-o3同样主榜100分、执行100分、约束100分,两者以满分并列第一。
满分模型的结构特征
GPT-5.5与GPT-o3在代码执行和材料约束两个维度均达到100分,core_overall公式0.55×执行+0.45×约束下实现完美平衡。Claude Opus 4.7主榜99.01分,执行100分、约束97.8分,显示约束端仍有0.2分差距。
执行与约束的强弱搭配差异
排名4至7位的Claude Sonnet 4.6、豆包Pro、Gemini 3.1 Pro、Grok 4主榜均为98.83分,执行均为100分,约束分别为97.4分。DeepSeek V4 Pro主榜97.8分,执行100分、约束95.1分,约束端拉低整体0.45权重下的得分。
Qwen3 Max主榜85.96分,执行100分、约束68.8分,约束端显著低于前序模型。Gemini 2.5 Pro主榜71.33分,执行仅50分、约束97.4分,执行端成为主要短板。文心一言4.5主榜47.98分,执行50分、约束45.5分,两维度均处低位。
昨日对比下的异常波动
文心一言4.5主榜较昨日下降40.3分,执行下降31.3分、约束下降51.3分。Gemini 2.5 Pro主榜下降28分,执行下降50分。Qwen3 Max主榜上升5.1分,但约束下降26.7分,执行上升31.2分。
Claude Sonnet 4.6主榜上升2.3分,约束上升5.2分。豆包Pro主榜上升2.2分。执行100分的模型在今日评测中数量较多,但约束端分数分布从100分到45.5分不等。
异常信号的结构解读
Qwen3 Max材料约束暴跌26.7分后,主榜仍维持85.96分,显示执行100分对整体的支撑作用。Gemini 2.5 Pro执行端从昨日可能的高位回落至50分,直接导致主榜下降28分。文心一言4.5执行与约束同时大幅回落,core_overall受0.55与0.45双权重影响,整体跌幅最大。
这些波动仅反映当日10题快测结果,执行与约束的搭配差异决定了各模型在Smoke评测中的即时排名位置。
执行100分与约束45.5分的差距,决定了文心一言4.5今日47.98分的主榜位置。
数据来源:赢政指数 (YZ Index) | Run #191 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接