今日Smoke轻量评测结果显示,豆包Pro以97.75分(执行100、约束95)强势登顶,成为11个主流模型中唯一主榜突破97分的选手。紧随其后的是GPT-o3的94.51分和Claude Sonnet 4.6的93.7分,而原本预期较高的GPT-5.5仅拿到60.58分,较昨日直接暴跌23.5分。
执行分腰斩暴露核心问题
GPT-5.5今日执行维度仅得50分,较前一日至少下降50分。这直接拉低了其core_overall得分。公式显示,执行维度权重高达0.55,单项崩盘对总分影响极大。结合昨日数据,GPT-5.5此前执行多维持在100分附近,今日10题快测中很可能在代码执行一致性上出现多次失败,导致标准差扩大。
材料约束成为今日分水岭
从榜单可见,前7名模型执行维度全部拿到100分,真正拉开差距的是材料约束。豆包Pro约束95分,GPT-o3 87.8分,而Gemini 2.5 Pro仅80.3分。Qwen3 Max和Gemini 3.1 Pro的约束分也分别下滑6.3和6分,说明今日题目对模型“材料约束”能力要求更高。文心一言4.5约束74.5分且诚信直接fail,进一步印证其在事实锚定上的短板。
多模型同步下滑的可能原因
今日出现四模型主榜跌幅超10分:GPT-5.5(-23.5)、文心一言4.5(-12.1)、Gemini 3.1 Pro(-11.1)、Qwen3 Max(-10.9)。这种集中式下跌不太可能是模型本身大版本更新,更可能是Smoke今日10题的材料约束部分难度或分布出现明显偏移。执行维度对多数模型仍保持高分,说明代码生成基础能力未退步,问题集中在“给定材料下的准确性与一致性”。
豆包Pro今日约束分较昨日提升26分,显示其在轻量评测环境下对材料依赖任务的适应性更强。这与字节跳动近期在多模态对齐与事实校验上的持续投入直接相关。
行业信号与判断
当前阶段,材料约束能力已成为区分顶级模型与第二梯队的关键指标。执行维度已进入“及格即满分”阶段,未来评测权重可能进一步向约束倾斜。GPT-5.5今日表现提示,其在快速迭代中可能牺牲了部分稳定性,需警惕连续两日评测是否继续走低。
材料约束决定天花板,执行满分只是入场券。
数据来源:赢政指数 (YZ Index) | Run #121 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接