豆包 Pro Smoke评测主榜暴跌13.8分,代码执行从100直降75

在赢政指数2026年6月对11个模型的实测中,豆包Pro主榜得分从昨日98.61分跌至今日84.77分,降幅13.8分。

核心维度拆解

代码执行维度从100.00分直接降至75.00分,降幅25分,是主榜下跌的唯一决定性因素。材料约束维度仅从96.90分微降至96.70分,降幅0.2分。工程判断从97.20分降至89.60分,任务表达从100.00分降至99.40分。诚信评级维持pass。

Smoke评测每日仅2题/维度,单日样本量极小。代码执行维度出现25分跌幅,极可能源于抽签题目难度或类型突变,而非模型能力整体退化。材料约束维度保持96.70分,说明模型对给定材料的遵循能力未发生系统性变化。

波动性质判断

工程判断与任务表达两项侧榜维度降幅均在7.6分以内,且主榜计算仅依赖代码执行与材料约束两个可审计维度,因此13.8分的主榜下跌几乎完全由代码执行单维度决定。这符合小样本快测的典型特征:个别高难度或边界案例题目即可造成大幅分数摆动。

若模型出现真实退化,通常会同时影响材料约束与代码执行两个主榜维度,但今日材料约束仅下降0.2分,表明模型基础能力框架未崩。代码执行25分跌幅更接近题目抽签带来的随机冲击。

是否需要持续关注

单日Smoke数据波动属于正常范围,无需立即判定模型能力退化。建议连续观察后续3-5天同一维度得分,若代码执行持续低于85分且材料约束同步走低,再考虑触发深度评测。当前数据仅显示一次抽签异常,不构成模型稳定性风险信号。

豆包Pro在代码执行维度表现出对特定题目类型的敏感性,这在小样本快测中会被放大。主榜84.77分仍高于多数模型基线,核心能力底盘未受损。

一次抽签25分跌幅,不等于模型退化;连续三天低位才值得真正警惕。

数据来源:赢政指数 (YZ Index) | Run #203 | 查看原始数据