DeepSeek R1稳定性暴跌22分:简单判断题全军覆没的真相 DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分,在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分,但在判断"水能否烧到101度"这种常识问题上竟然失误,暴露出严重的推理一致性问题。