AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

11个AI答同一道题，6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点：11个主流模型中6个答错，包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五，而所有模型都没意识到3月15日恰好是夏令时临界点。

11个AI答同一道题：豆包100分，8个模型0分

一道看似简单的群发功能排查题，11个主流AI模型交出了天差地别的答案。豆包Pro以满分碾压群雄，8个模型直接得0分，暴露出大模型在工程判断力上的巨大鸿沟。

Grok 3逻辑推理100分归零：5个字母暴露算法致命缺陷

Grok 3在最新评测中逻辑推理题从满分直接跌至0分，仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷，引发对其推理能力的深度质疑。