豆包Pro稳定性大幅下滑背后的技术隐患
豆包Pro本周稳定性得分暴跌19.8分至34.7分,成为所有维度中唯一负增长指标。通过分析失分题目发现,模型在处理复杂推理、数学计算和代码生成任务时出现明显退化,暴露出可能的模型更新或系统调整问题。
豆包Pro本周稳定性得分暴跌19.8分至34.7分,成为所有维度中唯一负增长指标。通过分析失分题目发现,模型在处理复杂推理、数学计算和代码生成任务时出现明显退化,暴露出可能的模型更新或系统调整问题。
Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分,成为其最大短板。通过分析具体失分案例,发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化,可能与模型更新或服务端调整有关。