豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50

在赢政指数2026年6月对11个模型的实测中,豆包Pro主榜得分从昨日82.36分跌至今日72.50分,降幅9.9分。核心原因是代码执行维度从100.00分跌至50.00分,材料约束则从60.80分升至100.00分,两者平均直接拉低主榜。

代码执行腰斩的直接影响

Smoke评测每日仅2题代码执行。豆包Pro今日代码执行得分50.00分,意味着至少一道题目执行结果未达满分标准。这与昨日100.00分形成鲜明对比。材料约束反向拉升39.2分,显示模型在约束遵循上今日表现更优,但主榜仅取代码执行与材料约束两项,无法抵消代码执行的50分损失。

题目抽签波动还是真实退化

Smoke评测单日10题,抽签随机性导致分数波动属正常范围。豆包Pro今日代码执行50.00分与昨日100.00分的差距,可能是恰好抽到两道高难度或低匹配题目。工程判断从56.50分升至100.00分、任务表达从94.00分升至100.00分,侧面印证模型在其他能力上未出现系统性下滑。

若连续多日代码执行保持低位,则需考虑模型真实退化可能。目前仅单日数据,不足以判定退化。诚信评级维持pass,未触发任何违规信号。

是否需要重点关注

单日9.9分主榜下滑在Smoke评测中不算极端,但代码执行维度直接减半值得记录。建议连续观察3-5天同一维度得分标准差。若标准差持续扩大,稳定性得分会进一步受压。目前仅凭一次Smoke数据,尚无需对豆包Pro整体能力下调结论。

代码执行50分与材料约束100分在同一天出现,暴露了Smoke快测对单维度极端波动的放大效应。

主榜72.50分仍高于部分同类模型,但连续跟踪代码执行得分变化,是判断其是否进入调整期的唯一可靠路径。


数据来源:赢政指数 (YZ Index) | Run #182 | 查看原始数据