AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

DeepSeek V3稳定性暴跌21.4分：当AI遇到真实工程场景就露馅了

DeepSeek V3本周测评稳定性维度暴跌21.4分，从53.4降至32.0。在模拟真实工程故障的严格题目中，V3暴露出严重的"过度自信"问题：明明不懂却强行编造答案，这种行为在生产环境中可能导致灾难性后果。