11个AI答同一道题,6个连星期都算错了
一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。
GPT-4o在最新评测中遭遇滑铁卢:代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码,GPT-4o竟然回答"代码本身没有明显的bug",暴露出其工程判断力的严重退化。
GPT-4o在"周五发布决策"严格题上从满分跌至0分,暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时,GPT-4o给出了教科书式的错误答案。