AIレビュー

実機テスト、データで語る。厳密な方法論でAI大規模モデル、スマートハードウェア、最先端技術を評価し、最も客観的な参考を提供します。

🏠 自社レビュー LMSYS Chatbot Arena MLCommons Ars Technica

DeepSeek V3稳定性暴跌21.4分：模型输出一致性危机深度剖析

DeepSeek V3在最新评测中稳定性得分从53.4分骤降至32.0分，跌幅达21.4分。尽管代码执行和材料约束等维度大幅提升，但模型输出一致性严重恶化，标准差增大意味着相同输入可能产生质量差异巨大的回答。