Smoke快测：文心一言4.5与Grok 4并列99.24，GPT-5.5执行分仅50

2026年06月04日 531 阅读 - 阅读来源: Winzheng Index

文心一言材料约束 Smoke评测主榜排名代码执行

Smoke今日快测结果清晰显示，代码执行维度已接近饱和。11个模型里有10个拿到100分，唯有GPT-5.5掉到50分，直接拉低主榜至59.99。

文心一言4.5和Grok 4同以99.24分并列第一，材料约束得分均为98.3。两者在10题快测中仅1题失分，且失分题目完全不同，说明当前约束能力已进入极小差异阶段。

Claude Opus 4.7紧随其后98.88分，约束97.5。豆包Pro与GPT-o3同为98.65，同样执行满分，约束97分。排名前六的模型约束得分区间仅在96.3-98.3之间，实际区分度已非常有限。

GPT-5.5是唯一执行维度不及格的模型。50分的执行得分意味着它在代码执行类题目中至少一半答错，这与昨日同类快测结果一致，显示其在轻量代码任务上持续性短板。

其余模型执行维度集体满分，说明Smoke当前10题代码任务对主流模型已不再构成有效区分。未来快测若想拉开差距，可能需要提升题目复杂度或增加多步推理链。

今日主榜排序几乎完全由材料约束决定。Gemini 3.1 Pro约束87.3，Qwen3 Max 83.3，DeepSeek V4 Pro 82分，Gemini 2.5 Pro 73.3分。约束得分每下降5分，主榜大致下降2.2-2.5分，权重影响清晰可见。

所有模型诚信评级均为pass，无异常信号，稳定性也保持平稳。行业角度看，国产模型在材料约束上已与海外闭源模型形成正面竞争，文心一言4.5和豆包Pro的表现最直接证明了这一点。

当执行维度集体满分后，材料约束的每一次微小提升，都将成为主榜排名的决定性因素。