文心一言4.5诚信评级Fail,代码执行暴涨42.5分却侧榜崩盘

文心一言4.5在今日Smoke快测中交出了一份极度分裂的答卷:主榜得分小幅上涨,但诚信评级直接从pass变为fail。这一变化并非孤立事件,而是多维度剧烈波动的集中体现。

分数拆解:高光与塌方并存

代码执行维度从50.00跃升至92.50,增幅达到42.5分;材料约束则从88.80回落至78.50。主榜因此小涨6.54分,来到74.00。但侧榜数据却呈现断崖式下跌:工程判断从66.70降至30.00,任务表达更是从50.00直接跌到10.00。诚信评级由pass转为fail,意味着模型在本次10题测试中至少触碰了准入门槛的红线。

波动来源:抽签还是退化

Smoke评测每日仅2题/维度,样本量小,单日波动本属正常。但本次变化幅度已超出常规随机区间。代码执行的大幅提升可能源于抽中相对简单的算法题,而工程判断和任务表达的崩盘更接近模型真实能力波动。尤其诚信评级从pass变为fail,通常意味着模型出现了拒绝回答、胡编或违反既定约束的情况,这不是单纯题目难度能解释的。

行业背景下的信号

近期百度在搜索与AI融合上动作频繁,文心一言4.5也刚完成一轮对标GPT-4o的调优。然而在实际落地场景中,用户反馈其指令遵循能力与多轮对话稳定性仍有差距。此次Smoke评测的侧榜崩盘,与行业内“模型越大越容易出现一致性问题”的观察相吻合。相比之下,同期其他国产模型在同类快测中尚未出现诚信评级直接fail的案例。

是否需要重点关注

需要。诚信评级是准入门槛,一旦fail,意味着模型在生产环境中存在安全与合规风险。主榜微涨掩盖不了侧榜断崖,长期来看这会影响开发者对其工程化部署的信心。建议连续观察3-5天Smoke数据,若诚信评级持续fail或侧榜低位徘徊,则基本可判定为模型真实退化而非抽签偶然。

当一个模型用42.5分换来一个Fail,它真正失去的不是分数,而是被信任的资格。

数据来源:赢政指数 (YZ Index) | Run #124 | 查看原始数据