AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

DeepSeek R1稳定性暴跌22分：简单判断题全军覆没的真相

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分，在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分，但在判断"水能否烧到101度"这种常识问题上竟然失误，暴露出严重的推理一致性问题。

DeepSeek R1稳定性骤降22分背后的技术隐患

DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分，跌幅达22.1分。深入分析发现，模型在数学计算、逻辑推理等任务中出现显著波动，同时编程和长上下文能力却大幅提升，呈现出明显的性能分化现象。