GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大

今日Smoke轻量评测最直接的发现是:代码执行能力已不再是前七名模型的区分点,所有模型均拿到100分,排名完全由材料约束得分决定。

满分执行下的真实排序逻辑

分数公式中代码执行权重0.55,材料约束权重0.45。当前前七模型执行全满分,材料约束从71分(GPT-5.5)一路滑落到55分(DeepSeek V4 Pro),直接拉开主榜差距。GPT-5.5凭借71分的约束成绩拿下86.95分,第二名GPT-o3约束仅66.8分,落后近2分。

这种现象说明,2026年主流模型在代码执行任务上已普遍达到高水准,下一阶段竞争焦点已转向对用户指令与上下文的严格遵循能力。

下半区模型的硬伤

Claude Opus 4.7、<|eos|>


数据来源:赢政指数 (YZ Index) | Run #143 | 查看原始数据