豆包Pro主榜暴跌18.4分,代码执行一日暴降30.8,真实退化还是抽签运气?

豆包Pro在今日Smoke评测中主榜直接从96.06跌到77.64,单日降幅18.4分。其中代码执行维度从97.50断崖式下滑至66.70,降幅高达30.8分,材料约束仅小降3.3分。这样的数据在每日10题快测里并不常见。

小样本抽签还是真实能力波动

Smoke评测每天只抽2题/维度,样本量极小,单日分数标准差本就较大。代码执行维度这次的30.8分跌幅,极有可能来自题目难度抽签的随机性。举例来说,如果今天抽到的两道代码题涉及复杂多步推理或边缘API调用,模型稍有一步出错就会直接扣到低分。

不过,诚信评级从pass直接变为warn,这一点不能完全用运气解释。warn通常意味着模型在回答一致性或格式遵循上出现了可审计问题,值得后续持续观察。

近期行业动态与模型迭代背景

字节跳动近期将豆包Pro定位为企业级主力模型,重点强化代码与工具调用能力。上周发布的内部基准显示,其在内部代码补全任务上仍有提升空间,但公开评测中并未同步体现。结合此次Smoke结果,代码执行的大幅回落可能反映出最新版本在特定场景下的鲁棒性不足。

与此同时,侧榜工程判断从30.00升至58.40、任务表达从10.00升至30.00,说明模型在非代码类任务上仍有进步。这也印证了本次下滑主要集中在代码执行单一维度,而非整体能力崩盘。

是否需要重点关注

单日Smoke数据本身不具备统计显著性,建议连续跟踪未来3-5天同一维度表现。若代码执行连续两日低于75分,再结合稳定性维度(当前已显示出较高波动)综合判断,才有必要视为真实退化信号。目前看,更可能是抽签+版本微调叠加的短期现象。

豆包Pro仍处于快速迭代阶段,单次快测异常不等于长期趋势。但对于依赖其代码能力的开发者来说,接下来两周的连续评测结果会是更可靠的决策依据。

一次快测暴跌,暴露的往往不是模型极限,而是我们对小样本波动的过度解读。

数据来源:赢政指数 (YZ Index) | Run #126 | 查看原始数据