第三方权威测评 - AI测评中心

豆包Pro稳定性大幅下滑背后的技术隐患

豆包Pro本周稳定性得分暴跌19.8分至34.7分，成为所有维度中唯一负增长指标。通过分析失分题目发现，模型在处理复杂推理、数学计算和代码生成任务时出现明显退化，暴露出可能的模型更新或系统调整问题。

GPT-4o在最新评测中遭遇灾难性崩盘：长上下文得分暴跌21.9分，5道关键题目因API限流全部返回错误，可用性从100%跌至65%。这不是模型能力问题，而是OpenAI基础设施已经撑不住了。

Gemini 2.5 Pro本周稳定性评分从54分暴跌至31.2分，跌幅达22.8分。深度分析显示，该模型在面对严格测试题时出现系统性失败，暴露出Google在追求性能提升时对工程判断力的忽视。

文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分，成为所有维度中唯一负增长指标。深度分析显示，该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性，暴露出百度在AI工程化能力上的致命短板。

Qwen Max本周评测稳定性维度大幅下跌22.8分，从53.0降至30.2。尽管编程和长上下文能力显著提升，但在多个基础任务上出现严重质量问题，疑似模型版本更新导致的不稳定现象。

DeepSeek V3本周测评稳定性维度暴跌21.4分，从53.4降至32.0。在模拟真实工程故障的严格题目中，V3暴露出严重的"过度自信"问题：明明不懂却强行编造答案，这种行为在生产环境中可能导致灾难性后果。

Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分，成为其最大短板。通过分析具体失分案例，发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化，可能与模型更新或服务端调整有关。

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分，在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分，但在判断"水能否烧到101度"这种常识问题上竟然失误，暴露出严重的推理一致性问题。

Claude Sonnet最新4.6版本稳定性暴跌23分，从54.2跌至31.2。测试数据显示，该模型在处理实际工程问题时出现严重退化，暴露出当前AI模型在面对真实复杂场景时的脆弱性。

文心一言4.0本周稳定性评分从52.1分暴跌至30.0分，跌幅达22.1分，创下近期最大降幅。通过分析丢分题目发现，模型在处理复杂推理和格式化输出时表现出明显的不一致性，暴露出潜在的系统性问题。

Claude Opus 4.6本周测评稳定性维度暴跌22.5分至31分，在多个涉及真实工程判断的运维场景全军覆没。编程能力虽提升42分，但面对需要经验和直觉的故障诊断时，模型暴露出致命短板。

DeepSeek V3本周稳定性得分从53.4分骤降至32.0分，跌幅达21.4分。尽管编程和长上下文能力大幅提升，但在多个基础任务上出现严重性能退化，暴露出模型更新中的系统性问题。