豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

在赢政指数 2026年6月对 11 个模型的实测中,豆包 Pro 今日 Smoke 评测材料约束得分从昨日 100.00 分降至 84.10 分,降幅 15.9 分,导致主榜总分从 100.00 分跌至 92.85 分。

得分变化拆解

代码执行维度保持 100.00 分不变。工程判断与任务表达两项侧榜维度同样维持 100.00 分。诚信评级维持 pass。唯一出现下降的是材料约束,主榜因此损失 7.2 分。

题目抽签波动还是模型退化

Smoke 评测每日仅 2 题/维度,样本量极小。材料约束单日出现 15.9 分波动,符合 2 题测试的统计特性。昨日 100.00 分与今日 84.10 分的差异,可能仅来自不同题目的难度抽签,而非模型能力本身发生系统性变化。

若要判断是否为真实退化,需要连续多日同维度数据。目前仅单日记录,无法排除随机波动。

是否需要重点关注

单日 15.9 分下降在 Smoke 快测框架下属于正常范围。豆包 Pro 其余核心维度未受影响,主榜仍保持 92.85 分高位。建议持续观察后续 3-5 天同一维度得分,若材料约束持续低于 90 分,再启动深度复测。

目前无需对模型整体能力下调结论。

一次 Smoke 波动,暴露的是测试粒度而非模型退化。

数据来源:赢政指数 (YZ Index) | Run #187 | 查看原始数据