Claude Opus 4.7与GPT-5.5并列Smoke榜首材料约束成为最大分水岭

2026年06月08日 21 约2分钟 Winzheng Index

Claude Opus 4.7 GPT-5.5 材料约束 Smoke轻量评测代码执行满分

Smoke今日轻量评测显示，Claude Opus 4.7与GPT-5.5以92.53分并列主榜第一，代码执行双双拿下100分，材料约束同为83.4分。这一结果直接把材料约束推到聚光灯下。

材料约束拉开第二梯队差距

第三名Claude Sonnet 4.6仅落后0.4分，主因材料约束82.5分。豆包Pro和Gemini 2.5 Pro并列第四（91.68分），约束分数81.5分，差距已从0.4分扩大到1.9分。公式0.55×代码执行+0.45×材料约束下，约束每提升1分，对总分贡献0.45分，远超执行维度的边际效应。

执行满分已成入门标准

前九名模型代码执行全部100分，Grok 4和文心一言却停在50分。后者材料约束70.5分且获warn，显示其在遵循原始材料指令时出现明显偏差。执行能力趋同后，模型真正比拼的是“被给定材料后不跑偏”的能力。

今日无异常信号，所有模型与昨日分数一致，稳定性维度未出现大幅波动。Grok 4的63.41分主要源于执行崩盘，而非约束问题；文心一言则双维度均处低位，warn标签进一步确认其一致性风险。

行业意义

2026年中期，顶级模型已把代码执行做到接近天花板，下一阶段竞争必然转向材料约束。Claude和GPT-5.5目前在这一维度形成0.9分的小幅领先，足以在主榜制造并列第一的戏剧性结果。后续如果约束分数继续分化，榜单将从“并列”走向“断层”。

材料约束已成为新护城河。

数据来源：赢政指数 (YZ Index) | Run #153 | 查看原始数据

材料约束拉开第二梯队差距

执行满分已成入门标准

行业意义

相关推荐