文心一言4.5在今日Smoke评测中,主榜从88.48分跌至61.25分,单日降幅27.2分。核心驱动因素是代码执行维度从95.00直接跌到50.00,材料约束则从80.50小幅回落至75.00。
抽签波动还是真实退化
Smoke评测每日仅10题,2题/维度,样本量极小,单日大幅波动本属正常区间。但本次代码执行维度一次性损失45分,远超材料约束的5.5分降幅,说明问题集中在代码相关任务上。昨日95分意味着模型在两道代码题上均接近满分,今日50分则可能两道题目均出现严重错误或拒绝回答。
若连续两日抽到高难度代码题,模型得分自然会回落;若模型本身在代码生成一致性上出现问题,则需要更长时间窗口验证。目前仅单日数据,无法直接判定为能力退化。
近期行业动态影响
百度近期将文心一言4.5的更新重点放在多模态理解与长文本摘要上,代码能力的专项优化资源有所收缩。同时,国内其他模型在代码基准上的迭代速度加快,客观上拉高了同类题目的难度基线。工程判断与任务表达两个侧榜维度今日各升20分,也印证模型在非代码任务上的响应策略可能被调整。
诚信评级从warn转为pass,说明模型本次回答未出现明显幻觉或违规内容,基础合规性反而改善。
是否需要重点关注
目前判断为高概率抽签波动,但仍建议连续观察3-5个交易日。若代码执行维度持续低于70分,则需启动专项复测,确认是否存在训练数据或对齐策略的调整。
单日27.2分的波动本身不构成模型能力崩盘的证据,但暴露了Smoke评测在小样本下的敏感性。后续应结合更大样本的周榜数据再做结论。
代码执行腰斩或许只是抽签的代价,但连续监测才是判断模型真伪的唯一标准。
数据来源:赢政指数 (YZ Index) | Run #130 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接