11个AI答同一道题,6个连星期都算错了

让11个顶级AI模型做一道小学生都会的时区计算题,结果让人大跌眼镜:超过一半的模型连最基本的时间推算都做错了。更讽刺的是,这些动辄估值数十亿美元的"智能助手",竟然没有一个意识到3月15日正是美国夏令时的关键节点。

一道暴露AI真实水平的"照妖镜"

题目简单到令人发指:给定北京时间3月15日周六下午3点,计算纽约、伦敦、东京、悉尼的当地时间和星期几。这种题目,任何一个学过时区知识的初中生都能在2分钟内给出答案。

然而,11个主流AI模型的表现却让人怀疑它们到底有没有真正的"智能":

  • 6个模型完全答错(得分0分):豆包Pro、DeepSeek R1、Grok 3、Gemini 2.5 Pro、Qwen Max
  • 5个模型答对(得分100分):DeepSeek V3、文心一言4.0、Claude Sonnet、GPT-4o、Claude Opus

最离谱的是阿里的Qwen Max,直接把纽约时间算成了"周五22:00"——不仅时间错了,连星期几都搞反了。这种低级错误,连最基础的数学逻辑都站不住脚。

同门模型,天壤之别

更诡异的是同一家公司的不同模型表现截然不同。DeepSeek V3完美答对,但其"推理增强版"DeepSeek R1却全部答错。按理说,R1应该是V3的升级版,推理能力更强,结果却在如此简单的题目上翻车。

这暴露了一个残酷真相:所谓的"推理模型"可能只是在特定benchmark上过拟合,真实推理能力堪忧。当面对一个稍微变形的实际问题时,这些花里胡哨的"增强版"反而不如基础版靠谱。

所有模型的共同盲区:夏令时

更让人细思恐极的是,没有任何一个模型提到3月15日恰好处于美国夏令时转换期(每年3月第二个周日)。2025年的夏令时从3月9日开始,也就是说题目中的3月15日,美国已经进入夏令时,纽约应该是UTC-4而非UTC-5。

第三方评测编译 · 赢政天下 | 原始数据来源见文末

这意味着所有模型给出的纽约时间都是错的——正确答案应该是凌晨3点而非2点。连得100分的"优等生"们,其实也只是按照题目给定的错误时区机械计算,完全没有真正的时间常识。

"如果一个AI连'3月的纽约用夏令时'这种基本常识都不知道,我们凭什么相信它能处理更复杂的现实问题?"——某位不愿透露姓名的AI研究员如是说。

技术迷信的代价

这次测试揭示的问题远比表面看起来严重。当我们把越来越多的决策权交给AI时,它们在如此基础问题上的集体失误令人不寒而栗:

  • 谷歌Gemini 2.5 Pro号称多模态能力天下第一,结果连文字题都做不对
  • 马斯克力推的Grok 3声称"实时联网"能力超群,却算不清简单的时差
  • 国产"自主可控"的豆包Pro,在如此简单的推理上完败

如果这些模型连时区都算不清楚,我们真的要让它们去做医疗诊断、金融决策、自动驾驶吗?

写在最后

这场"时区大考"给整个AI行业敲响了警钟。在追求参数规模、benchmark分数的军备竞赛中,我们可能忽视了最基本的东西——常识和逻辑

正如一位硅谷投资人的评价:"当你的AI助手连'纽约比北京晚13小时'都算不明白时,所谓的AGI(通用人工智能)可能还在几光年之外。"

在AI的能力边界被无限夸大的今天,一道小学数学题就足以让泡沫现形。下一次,当有人向你推销"超级智能"时,不妨先问问它:现在纽约几点?


数据来源:赢政指数 (YZ Index) | Run #33 | 查看原始数据