GPT-5.5 材料约束71分登顶 Smoke榜代码满分后半段差距拉大

2026年06月02日 517 阅读 - 阅读来源: Winzheng Index

GPT-5.5 材料约束 Smoke评测代码执行模型分化

今日Smoke轻量评测最直接的发现是：代码执行能力已不再是前七名模型的区分点，所有模型均拿到100分，排名完全由材料约束得分决定。

满分执行下的真实排序逻辑

分数公式中代码执行权重0.55，材料约束权重0.45。当前前七模型执行全满分，材料约束从71分（GPT-5.5）一路滑落到55分（DeepSeek V4 Pro），直接拉开主榜差距。GPT-5.5凭借71分的约束成绩拿下86.95分，第二名GPT-o3约束仅66.8分，落后近2分。

这种现象说明，2026年主流模型在代码执行任务上已普遍达到高水准，下一阶段竞争焦点已转向对用户指令与上下文的严格遵循能力。

下半区模型的硬伤

Claude Opus 4.7、<|eos|>

数据来源：赢政指数 (YZ Index) | Run #143 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接