11个AI答同一道题，6个连星期都算错了

2026年03月21日 619 阅读 - 阅读来源: Winzheng Index

DeepSeek GPT-4o 时区计算模型评测 AI推理能力

让11个顶级AI模型做一道小学生都会的时区计算题，结果让人大跌眼镜：超过一半的模型连最基本的时间推算都做错了。更讽刺的是，这些动辄估值数十亿美元的"智能助手"，竟然没有一个意识到3月15日正是美国夏令时的关键节点。

题目简单到令人发指：给定北京时间3月15日周六下午3点，计算纽约、伦敦、东京、悉尼的当地时间和星期几。这种题目，任何一个学过时区知识的初中生都能在2分钟内给出答案。

然而，11个主流AI模型的表现却让人怀疑它们到底有没有真正的"智能"：

最离谱的是阿里的Qwen Max，直接把纽约时间算成了"周五22:00"——不仅时间错了，连星期几都搞反了。这种低级错误，连最基础的数学逻辑都站不住脚。

更诡异的是同一家公司的不同模型表现截然不同。DeepSeek V3完美答对，但其"推理增强版"DeepSeek R1却全部答错。按理说，R1应该是V3的升级版，推理能力更强，结果却在如此简单的题目上翻车。

这暴露了一个残酷真相：所谓的"推理模型"可能只是在特定benchmark上过拟合，真实推理能力堪忧。当面对一个稍微变形的实际问题时，这些花里胡哨的"增强版"反而不如基础版靠谱。

更让人细思恐极的是，没有任何一个模型提到3月15日恰好处于美国夏令时转换期（每年3月第二个周日）。2025年的夏令时从3月9日开始，也就是说题目中的3月15日，美国已经进入夏令时，纽约应该是UTC-4而非UTC-5。

这意味着所有模型给出的纽约时间都是错的——正确答案应该是凌晨3点而非2点。连得100分的"优等生"们，其实也只是按照题目给定的错误时区机械计算，完全没有真正的时间常识。

"如果一个AI连'3月的纽约用夏令时'这种基本常识都不知道，我们凭什么相信它能处理更复杂的现实问题？"——某位不愿透露姓名的AI研究员如是说。

这次测试揭示的问题远比表面看起来严重。当我们把越来越多的决策权交给AI时，它们在如此基础问题上的集体失误令人不寒而栗：

如果这些模型连时区都算不清楚，我们真的要让它们去做医疗诊断、金融决策、自动驾驶吗？

这场"时区大考"给整个AI行业敲响了警钟。在追求参数规模、benchmark分数的军备竞赛中，我们可能忽视了最基本的东西——常识和逻辑。

正如一位硅谷投资人的评价："当你的AI助手连'纽约比北京晚13小时'都算不明白时，所谓的AGI（通用人工智能）可能还在几光年之外。"

在AI的能力边界被无限夸大的今天，一道小学数学题就足以让泡沫现形。下一次，当有人向你推销"超级智能"时，不妨先问问它：现在纽约几点？