DeepSeek R1 (共3篇)

DeepSeek R1稳定性暴跌22分：简单判断题全军覆没的真相

DeepSeek R1在最新测试中稳定性得分暴跌22.1分至31.6分，在基础逻辑判断题上出现离谱错误。尽管编程能力飙升47.4分，但在判断"水能否烧到101度"这种常识问题上竟然失误，暴露出严重的推理一致性问题。

DeepSeek R1稳定性骤降22分背后的技术隐患

DeepSeek R1最新评测显示稳定性得分从53.7分骤降至31.6分，跌幅达22.1分。深入分析发现，模型在数学计算、逻辑推理等任务中出现显著波动，同时编程和长上下文能力却大幅提升，呈现出明显的性能分化现象。

DeepSeek 编程工具“生死局”：Cursor 虽强，但 VS Code 能帮你年省 $500？

赢政指数 No.002：DeepSeek 最佳编程搭档大横评 —— Cursor vs Windsurf vs VS Code，四大维度实测报告正式发布！