豆包 Pro Smoke评测主榜暴跌13.8分，代码执行从100直降75

2026年06月29日 10 阅读 - 阅读来源: Winzheng Index

豆包 Pro 主榜 Smoke测试代码执行单日波动

在赢政指数2026年6月对11个模型的实测中，豆包Pro主榜得分从昨日98.61分跌至今日84.77分，降幅13.8分。

代码执行维度从100.00分直接降至75.00分，降幅25分，是主榜下跌的唯一决定性因素。材料约束维度仅从96.90分微降至96.70分，降幅0.2分。工程判断从97.20分降至89.60分，任务表达从100.00分降至99.40分。诚信评级维持pass。

Smoke评测每日仅2题/维度，单日样本量极小。代码执行维度出现25分跌幅，极可能源于抽签题目难度或类型突变，而非模型能力整体退化。材料约束维度保持96.70分，说明模型对给定材料的遵循能力未发生系统性变化。

工程判断与任务表达两项侧榜维度降幅均在7.6分以内，且主榜计算仅依赖代码执行与材料约束两个可审计维度，因此13.8分的主榜下跌几乎完全由代码执行单维度决定。这符合小样本快测的典型特征：个别高难度或边界案例题目即可造成大幅分数摆动。

若模型出现真实退化，通常会同时影响材料约束与代码执行两个主榜维度，但今日材料约束仅下降0.2分，表明模型基础能力框架未崩。代码执行25分跌幅更接近题目抽签带来的随机冲击。

单日Smoke数据波动属于正常范围，无需立即判定模型能力退化。建议连续观察后续3-5天同一维度得分，若代码执行持续低于85分且材料约束同步走低，再考虑触发深度评测。当前数据仅显示一次抽签异常，不构成模型稳定性风险信号。

豆包Pro在代码执行维度表现出对特定题目类型的敏感性，这在小样本快测中会被放大。主榜84.77分仍高于多数模型基线，核心能力底盘未受损。

一次抽签25分跌幅，不等于模型退化；连续三天低位才值得真正警惕。