Smoke今日轻量评测显示,Claude Opus 4.7与GPT-5.5以92.53分并列主榜第一,代码执行双双拿下100分,材料约束同为83.4分。这一结果直接把材料约束推到聚光灯下。
材料约束拉开第二梯队差距
第三名Claude Sonnet 4.6仅落后0.4分,主因材料约束82.5分。豆包Pro和Gemini 2.5 Pro并列第四(91.68分),约束分数81.5分,差距已从0.4分扩大到1.9分。公式0.55×代码执行+0.45×材料约束下,约束每提升1分,对总分贡献0.45分,远超执行维度的边际效应。
执行满分已成入门标准
前九名模型代码执行全部100分,Grok 4和文心一言却停在50分。后者材料约束70.5分且获warn,显示其在遵循原始材料指令时出现明显偏差。执行能力趋同后,模型真正比拼的是“被给定材料后不跑偏”的能力。
今日无异常信号,所有模型与昨日分数一致,稳定性维度未出现大幅波动。Grok 4的63.41分主要源于执行崩盘,而非约束问题;文心一言则双维度均处低位,warn标签进一步确认其一致性风险。
行业意义
2026年中期,顶级模型已把代码执行做到接近天花板,下一阶段竞争必然转向材料约束。Claude和GPT-5.5目前在这一维度形成0.9分的小幅领先,足以在主榜制造并列第一的戏剧性结果。后续如果约束分数继续分化,榜单将从“并列”走向“断层”。
材料约束已成为新护城河。
数据来源:赢政指数 (YZ Index) | Run #153 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接