GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke

2026年05月18日 355 阅读 - 阅读来源: Winzheng Index

豆包 Pro GPT-5.5 Smoke评测主榜波动材料约束

今日Smoke轻量评测结果显示，豆包Pro以97.75分（执行100、约束95）强势登顶，成为11个主流模型中唯一主榜突破97分的选手。紧随其后的是GPT-o3的94.51分和Claude Sonnet 4.6的93.7分，而原本预期较高的GPT-5.5仅拿到60.58分，较昨日直接暴跌23.5分。

执行分腰斩暴露核心问题

GPT-5.5今日执行维度仅得50分，较前一日至少下降50分。这直接拉低了其core_overall得分。公式显示，执行维度权重高达0.55，单项崩盘对总分影响极大。结合昨日数据，GPT-5.5此前执行多维持在100分附近，今日10题快测中很可能在代码执行一致性上出现多次失败，导致标准差扩大。

材料约束成为今日分水岭

从榜单可见，前7名模型执行维度全部拿到100分，真正拉开差距的是材料约束。豆包Pro约束95分，GPT-o3 87.8分，而Gemini 2.5 Pro仅80.3分。Qwen3 Max和Gemini 3.1 Pro的约束分也分别下滑6.3和6分，说明今日题目对模型“材料约束”能力要求更高。文心一言4.5约束74.5分且诚信直接fail，进一步印证其在事实锚定上的短板。

多模型同步下滑的可能原因

今日出现四模型主榜跌幅超10分：GPT-5.5（-23.5）、文心一言4.5（-12.1）、Gemini 3.1 Pro（-11.1）、Qwen3 Max（-10.9）。这种集中式下跌不太可能是模型本身大版本更新，更可能是Smoke今日10题的材料约束部分难度或分布出现明显偏移。执行维度对多数模型仍保持高分，说明代码生成基础能力未退步，问题集中在“给定材料下的准确性与一致性”。

豆包Pro今日约束分较昨日提升26分，显示其在轻量评测环境下对材料依赖任务的适应性更强。这与字节跳动近期在多模态对齐与事实校验上的持续投入直接相关。

行业信号与判断

当前阶段，材料约束能力已成为区分顶级模型与第二梯队的关键指标。执行维度已进入“及格即满分”阶段，未来评测权重可能进一步向约束倾斜。GPT-5.5今日表现提示，其在快速迭代中可能牺牲了部分稳定性，需警惕连续两日评测是否继续走低。

材料约束决定天花板，执行满分只是入场券。

数据来源：赢政指数 (YZ Index) | Run #121 | 查看原始数据

GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke

执行分腰斩暴露核心问题

材料约束成为今日分水岭

多模型同步下滑的可能原因

行业信号与判断

相关测评

Winzheng Index Qwen3 Max材料约束暴跌15.1分 代码执行反升18.4分

Winzheng Index 豆包Pro 98.61分登顶 Smoke评测，Claude执行-50分暴跌

Winzheng Index 豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

Winzheng Index 材料约束集体暴跌20分，Claude Opus 4.7 90.78分守住第一

Winzheng Index Qwen3 Max材料约束暴跌15.1分代码执行反升18.4分