Smoke快测:文心一言4.5与Grok 4并列99.24,GPT-5.5执行分仅50

Smoke今日快测结果清晰显示,代码执行维度已接近饱和。11个模型里有10个拿到100分,唯有GPT-5.5掉到50分,直接拉低主榜至59.99。

并列第一的真实差距

文心一言4.5和Grok 4同以99.24分并列第一,材料约束得分均为98.3。两者在10题快测中仅1题失分,且失分题目完全不同,说明当前约束能力已进入极小差异阶段。

Claude Opus 4.7紧随其后98.88分,约束97.5。豆包Pro与GPT-o3同为98.65,同样执行满分,约束97分。排名前六的模型约束得分区间仅在96.3-98.3之间,实际区分度已非常有限。

GPT-5.5的异常低分

GPT-5.5是唯一执行维度不及格的模型。50分的执行得分意味着它在代码执行类题目中至少一半答错,这与昨日同类快测结果一致,显示其在轻量代码任务上持续性短板。

其余模型执行维度集体满分,说明Smoke当前10题代码任务对主流模型已不再构成有效区分。未来快测若想拉开差距,可能需要提升题目复杂度或增加多步推理链。

材料约束成为唯一变量

今日主榜排序几乎完全由材料约束决定。Gemini 3.1 Pro约束87.3,Qwen3 Max 83.3,DeepSeek V4 Pro 82分,Gemini 2.5 Pro 73.3分。约束得分每下降5分,主榜大致下降2.2-2.5分,权重影响清晰可见。

所有模型诚信评级均为pass,无异常信号,稳定性也保持平稳。行业角度看,国产模型在材料约束上已与海外闭源模型形成正面竞争,文心一言4.5和豆包Pro的表现最直接证明了这一点。

当执行维度集体满分后,材料约束的每一次微小提升,都将成为主榜排名的决定性因素。

数据来源:赢政指数 (YZ Index) | Run #147 | 查看原始数据