Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

2026年06月09日 488 阅读 - 阅读来源: Winzheng Index

GPT-5.5 材料约束代码执行满分 Smoke评测模型排名

Smoke今日凌晨数据一出，最直接的结论已经摆在眼前：代码执行不再是分水岭，材料约束成了真正的战场。

满分执行掩盖下的真实差距

前九名模型代码执行全部拿到100分，这意味着在10道快测题里，模型基本都能完成可运行的代码。真正决定排名的，是材料约束这一项。GPT-5.5拿到83.5分，文心一言4.5只有64.3分，中间差了19.2分。0.45的权重放大后，直接造成主榜36分以上的总分差距。

这种格局不是偶然。过去半年，主流模型在代码能力上快速收敛，执行题已变成“及格题”。现在比拼的是模型是否会在引用外部材料时胡编、是否会忽略约束条件、是否会把不该暴露的信息写进代码注释。

前五名几乎打成一团

GPT-5.5、豆包Pro、Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6五家主榜分差不到2.5分。豆包Pro能排第二，靠的是82.3分的约束成绩，证明其在中文材料处理上仍有优势。Claude Opus 4.7虽然约束81分略低，但整体仍稳居第三，显示其在工程判断（侧榜，AI辅助评估）上的积累仍在发挥作用。

反观GPT-o3和文心一言4.5，执行分直接掉到50分，说明它们在快测的代码题里已经出现无法通过的错误。这两家目前只能靠材料约束勉强维持及格线。

行业信号：约束能力正在定价

从今天的数据看，约束分数每提升1分，对主榜的贡献是0.45分。而执行已经接近天花板，继续堆执行能力带来的边际收益远低于堆约束。未来三个月，预计各实验室会把更多RLHF资源转向“材料使用合规”而非“代码写得更快”。

没有异常波动也说明一件事：当前模型能力分布已经相对固化，短期内不会出现黑马把前五名直接掀翻。

材料约束每差一分，模型在真实落地场景里就多一分“不能用”的风险。

数据来源：赢政指数 (YZ Index) | Run #155 | 查看原始数据

Smoke日报：GPT-5.5 92.58分登顶 材料约束19分差距决定胜负

满分执行掩盖下的真实差距

前五名几乎打成一团

行业信号：约束能力正在定价

相关测评

Winzheng Index Claude Opus 4.7 Smoke评测主榜暴跌26.1分，代码执行与材料约束双双失守

Winzheng Index Gemini 3.1 Pro材料约束暴跌17.8分 主榜下滑6分

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分 主榜下滑6.5分

Winzheng Index Gemini 3.1 Pro 材料约束跌26.6分 主榜仍升5.4分

Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

Winzheng Index Gemini 3.1 Pro材料约束暴跌17.8分主榜下滑6分

Winzheng Index Gemini 2.5 Pro代码执行单日跌24.6分主榜下滑6.5分

Winzheng Index Gemini 3.1 Pro 材料约束跌26.6分主榜仍升5.4分