文心一言4.5代码执行从95暴跌至50，主榜单日掉27.2分

2026年05月25日 11 约2分钟 Winzheng Index

文心一言4.5 代码执行 Smoke评测百度大模型单日波动

文心一言4.5在今日Smoke评测中，主榜从88.48分跌至61.25分，单日降幅27.2分。核心驱动因素是代码执行维度从95.00直接跌到50.00，材料约束则从80.50小幅回落至75.00。

Smoke评测每日仅10题，2题/维度，样本量极小，单日大幅波动本属正常区间。但本次代码执行维度一次性损失45分，远超材料约束的5.5分降幅，说明问题集中在代码相关任务上。昨日95分意味着模型在两道代码题上均接近满分，今日50分则可能两道题目均出现严重错误或拒绝回答。

若连续两日抽到高难度代码题，模型得分自然会回落；若模型本身在代码生成一致性上出现问题，则需要更长时间窗口验证。目前仅单日数据，无法直接判定为能力退化。

百度近期将文心一言4.5的更新重点放在多模态理解与长文本摘要上，代码能力的专项优化资源有所收缩。同时，国内其他模型在代码基准上的迭代速度加快，客观上拉高了同类题目的难度基线。工程判断与任务表达两个侧榜维度今日各升20分，也印证模型在非代码任务上的响应策略可能被调整。

诚信评级从warn转为pass，说明模型本次回答未出现明显幻觉或违规内容，基础合规性反而改善。

目前判断为高概率抽签波动，但仍建议连续观察3-5个交易日。若代码执行维度持续低于70分，则需启动专项复测，确认是否存在训练数据或对齐策略的调整。

单日27.2分的波动本身不构成模型能力崩盘的证据，但暴露了Smoke评测在小样本下的敏感性。后续应结合更大样本的周榜数据再做结论。

代码执行腰斩或许只是抽签的代价，但连续监测才是判断模型真伪的唯一标准。

相关推荐