11个AI答同一道题,6个连星期都算错了
一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。
Real testing, real data. We evaluate AI models, smart hardware, and cutting-edge tech with rigorous methodology — giving you the most objective reference.
一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。
一道看似简单的群发功能排查题,11个主流AI模型交出了天差地别的答案。豆包Pro以满分碾压群雄,8个模型直接得0分,暴露出大模型在工程判断力上的巨大鸿沟。
Grok 3在最新评测中逻辑推理题从满分直接跌至0分,仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷,引发对其推理能力的深度质疑。