AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

Claude 4.6版本崩了：23分暴跌背后的算法黑洞

Claude Sonnet最新4.6版本稳定性暴跌23分，从54.2跌至31.2。测试数据显示，该模型在处理实际工程问题时出现严重退化，暴露出当前AI模型在面对真实复杂场景时的脆弱性。

Grok 3逻辑推理100分归零：5个字母暴露算法致命缺陷

Grok 3在最新评测中逻辑推理题从满分直接跌至0分，仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷，引发对其推理能力的深度质疑。