文心一言4.5代码执行从95暴跌至50,主榜单日掉27.2分

文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。

文心一言4.5在今日Smoke评测中,主榜从88.48分跌至61.25分,单日降幅27.2分。核心驱动因素是代码执行维度从95.00直接跌到50.00,材料约束则从80.50小幅回落至75.00。

抽签波动还是真实退化

Smoke评测每日仅10题,2题/维度,样本量极小,单日大幅波动本属正常区间。但本次代码执行维度一次性损失45分,远超材料约束的5.5分降幅,说明问题集中在代码相关任务上。昨日95分意味着模型在两道代码题上均接近满分,今日50分则可能两道题目均出现严重错误或拒绝回答。

若连续两日抽到高难度代码题,模型得分自然会回落;若模型本身在代码生成一致性上出现问题,则需要更长时间窗口验证。目前仅单日数据,无法直接判定为能力退化。

近期行业动态影响

百度近期将文心一言4.5的更新重点放在多模态理解与长文本摘要上,代码能力的专项优化资源有所收缩。同时,国内其他模型在代码基准上的迭代速度加快,客观上拉高了同类题目的难度基线。工程判断与任务表达两个侧榜维度今日各升20分,也印证模型在非代码任务上的响应策略可能被调整。

诚信评级从warn转为pass,说明模型本次回答未出现明显幻觉或违规内容,基础合规性反而改善。

是否需要重点关注

目前判断为高概率抽签波动,但仍建议连续观察3-5个交易日。若代码执行维度持续低于70分,则需启动专项复测,确认是否存在训练数据或对齐策略的调整。

单日27.2分的波动本身不构成模型能力崩盘的证据,但暴露了Smoke评测在小样本下的敏感性。后续应结合更大样本的周榜数据再做结论。

代码执行腰斩或许只是抽签的代价,但连续监测才是判断模型真伪的唯一标准。

数据来源:赢政指数 (YZ Index) | Run #130 | 查看原始数据