Smoke今日凌晨数据一出,最直接的结论已经摆在眼前:代码执行不再是分水岭,材料约束成了真正的战场。
满分执行掩盖下的真实差距
前九名模型代码执行全部拿到100分,这意味着在10道快测题里,模型基本都能完成可运行的代码。真正决定排名的,是材料约束这一项。GPT-5.5拿到83.5分,文心一言4.5只有64.3分,中间差了19.2分。0.45的权重放大后,直接造成主榜36分以上的总分差距。
这种格局不是偶然。过去半年,主流模型在代码能力上快速收敛,执行题已变成“及格题”。现在比拼的是模型是否会在引用外部材料时胡编、是否会忽略约束条件、是否会把不该暴露的信息写进代码注释。
前五名几乎打成一团
GPT-5.5、豆包Pro、Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6五家主榜分差不到2.5分。豆包Pro能排第二,靠的是82.3分的约束成绩,证明其在中文材料处理上仍有优势。Claude Opus 4.7虽然约束81分略低,但整体仍稳居第三,显示其在工程判断(侧榜,AI辅助评估)上的积累仍在发挥作用。
反观GPT-o3和文心一言4.5,执行分直接掉到50分,说明它们在快测的代码题里已经出现无法通过的错误。这两家目前只能靠材料约束勉强维持及格线。
行业信号:约束能力正在定价
从今天的数据看,约束分数每提升1分,对主榜的贡献是0.45分。而执行已经接近天花板,继续堆执行能力带来的边际收益远低于堆约束。未来三个月,预计各实验室会把更多RLHF资源转向“材料使用合规”而非“代码写得更快”。
没有异常波动也说明一件事:当前模型能力分布已经相对固化,短期内不会出现黑马把前五名直接掀翻。
材料约束每差一分,模型在真实落地场景里就多一分“不能用”的风险。
数据来源:赢政指数 (YZ Index) | Run #155 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接