豆包Pro Smoke评测主榜暴跌9.9分代码执行从100腰斩至50

2026年06月16日 479 阅读 - 阅读来源: Winzheng Index

豆包 Pro 代码执行 Smoke评测模型波动主榜排名

在赢政指数2026年6月对11个模型的实测中，豆包Pro主榜得分从昨日82.36分跌至今日72.50分，降幅9.9分。核心原因是代码执行维度从100.00分跌至50.00分，材料约束则从60.80分升至100.00分，两者平均直接拉低主榜。

Smoke评测每日仅2题代码执行。豆包Pro今日代码执行得分50.00分，意味着至少一道题目执行结果未达满分标准。这与昨日100.00分形成鲜明对比。材料约束反向拉升39.2分，显示模型在约束遵循上今日表现更优，但主榜仅取代码执行与材料约束两项，无法抵消代码执行的50分损失。

Smoke评测单日10题，抽签随机性导致分数波动属正常范围。豆包Pro今日代码执行50.00分与昨日100.00分的差距，可能是恰好抽到两道高难度或低匹配题目。工程判断从56.50分升至100.00分、任务表达从94.00分升至100.00分，侧面印证模型在其他能力上未出现系统性下滑。

若连续多日代码执行保持低位，则需考虑模型真实退化可能。目前仅单日数据，不足以判定退化。诚信评级维持pass，未触发任何违规信号。

单日9.9分主榜下滑在Smoke评测中不算极端，但代码执行维度直接减半值得记录。建议连续观察3-5天同一维度得分标准差。若标准差持续扩大，稳定性得分会进一步受压。目前仅凭一次Smoke数据，尚无需对豆包Pro整体能力下调结论。

代码执行50分与材料约束100分在同一天出现，暴露了Smoke快测对单维度极端波动的放大效应。

主榜72.50分仍高于部分同类模型，但连续跟踪代码执行得分变化，是判断其是否进入调整期的唯一可靠路径。

豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50