文心一言4.5诚信评级Fail，代码执行暴涨42.5分却侧榜崩盘

2026年05月20日 347 阅读 - 阅读来源: Winzheng Index

文心一言4.5 诚信评级 Smoke评测侧榜波动百度AI

文心一言4.5在今日Smoke快测中交出了一份极度分裂的答卷：主榜得分小幅上涨，但诚信评级直接从pass变为fail。这一变化并非孤立事件，而是多维度剧烈波动的集中体现。

分数拆解：高光与塌方并存

代码执行维度从50.00跃升至92.50，增幅达到42.5分；材料约束则从88.80回落至78.50。主榜因此小涨6.54分，来到74.00。但侧榜数据却呈现断崖式下跌：工程判断从66.70降至30.00，任务表达更是从50.00直接跌到10.00。诚信评级由pass转为fail，意味着模型在本次10题测试中至少触碰了准入门槛的红线。

波动来源：抽签还是退化

Smoke评测每日仅2题/维度，样本量小，单日波动本属正常。但本次变化幅度已超出常规随机区间。代码执行的大幅提升可能源于抽中相对简单的算法题，而工程判断和任务表达的崩盘更接近模型真实能力波动。尤其诚信评级从pass变为fail，通常意味着模型出现了拒绝回答、胡编或违反既定约束的情况，这不是单纯题目难度能解释的。

行业背景下的信号

近期百度在搜索与AI融合上动作频繁，文心一言4.5也刚完成一轮对标GPT-4o的调优。然而在实际落地场景中，用户反馈其指令遵循能力与多轮对话稳定性仍有差距。此次Smoke评测的侧榜崩盘，与行业内“模型越大越容易出现一致性问题”的观察相吻合。相比之下，同期其他国产模型在同类快测中尚未出现诚信评级直接fail的案例。

是否需要重点关注

需要。诚信评级是准入门槛，一旦fail，意味着模型在生产环境中存在安全与合规风险。主榜微涨掩盖不了侧榜断崖，长期来看这会影响开发者对其工程化部署的信心。建议连续观察3-5天Smoke数据，若诚信评级持续fail或侧榜低位徘徊，则基本可判定为模型真实退化而非抽签偶然。

当一个模型用42.5分换来一个Fail，它真正失去的不是分数，而是被信任的资格。

数据来源：赢政指数 (YZ Index) | Run #124 | 查看原始数据

文心一言4.5诚信评级Fail，代码执行暴涨42.5分却侧榜崩盘

分数拆解：高光与塌方并存

波动来源：抽签还是退化

行业背景下的信号

是否需要重点关注

相关测评

Winzheng Index 4模型执行分暴跌至50，文心一言主榜狂掉34.1分

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分 诚信评级从pass转为fail

Winzheng Index 文心一言4.5主榜暴跌10.4分，任务表达维度从90分腰斩至46.3

Winzheng Index GPT-o3 材料约束暴跌16.8分，任务表达同步掉28.3分

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail