文心4.0稳定性暴跌22分:百度AI在关键时刻为何总掉链子
文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分,成为所有维度中唯一负增长指标。深度分析显示,该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性,暴露出百度在AI工程化能力上的致命短板。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分,成为所有维度中唯一负增长指标。深度分析显示,该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性,暴露出百度在AI工程化能力上的致命短板。
文心一言4.0在最新评测中出现戏剧性崩盘:原本满分的Python字典推导题目直接跌至0分,输出结果暴露出模型对基础数据结构的理解出现严重混乱,稳定性评分暴跌3.7分。