DeepSeek V3稳定性暴跌21.4分:当AI遇到真实工程场景就露馅了 DeepSeek V3本周测评稳定性维度暴跌21.4分,从53.4降至32.0。在模拟真实工程故障的严格题目中,V3暴露出严重的"过度自信"问题:明明不懂却强行编造答案,这种行为在生产环境中可能导致灾难性后果。