稳定性测试 - AI测评

豆包Pro稳定性暴跌19.8分：同题异答成最大软肋

豆包Pro本周评测显示稳定性维度大幅下跌19.8分至34.7分，成为各维度中唯一负增长指标。分析发现模型在相同问题上给出差异化回答，反映出内部决策机制可能存在随机性过高的问题。

Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分，在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分，但遇到真实故障场景时的表现令人担忧。

GPT-o3本周稳定性暴跌25分，可用性从100%跌至69%，长上下文能力崩塌33.5分。深度分析显示，这不是简单的性能波动，而是暴露了其架构设计的根本性缺陷。当AI遇到真实工程场景，华丽的benchmark分数瞬间现形。

豆包Pro本周稳定性得分暴跌19.8分至34.7分，成为所有维度中唯一负增长指标。通过分析失分题目发现，模型在处理复杂推理、数学计算和代码生成任务时出现明显退化，暴露出可能的模型更新或系统调整问题。

文心一言4.0在最新评测中稳定性得分暴跌22.1分至30分，成为所有维度中唯一负增长指标。深度分析显示，该模型在处理复杂推理、数学计算等关键任务时表现出严重的不稳定性，暴露出百度在AI工程化能力上的致命短板。

Qwen Max本周评测稳定性维度大幅下跌22.8分，从53.0降至30.2。尽管编程和长上下文能力显著提升，但在多个基础任务上出现严重质量问题，疑似模型版本更新导致的不稳定现象。

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分，在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分，但在判断"水能否烧到101度"这种常识问题上竟然失误，暴露出严重的推理一致性问题。

Claude Sonnet最新4.6版本稳定性暴跌23分，从54.2跌至31.2。测试数据显示，该模型在处理实际工程问题时出现严重退化，暴露出当前AI模型在面对真实复杂场景时的脆弱性。

DeepSeek V3本周稳定性得分从53.4分骤降至32.0分，跌幅达21.4分。尽管编程和长上下文能力大幅提升，但在多个基础任务上出现严重性能退化，暴露出模型更新中的系统性问题。

DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分，跌幅达22.1分。深入分析发现，模型在数学计算、逻辑推理等任务中出现显著波动，同时编程和长上下文能力却大幅提升，呈现出明显的性能分化现象。

Claude 3.5 Sonnet最新评测显示稳定性得分从54.2分骤降至31.2分，降幅高达42%。深入分析发现，模型在处理复杂任务时出现明显的性能波动，但同时在编程等其他维度却有显著提升，呈现出不均衡的优化特征。

Claude Opus 4.6本周稳定性评分从53.5分骤降至31.0分，下跌22.5分。深度分析显示，模型在多个测试场景中出现输出格式混乱、响应不一致等问题，但编程和长上下文能力显著提升。