一道小学生都能答对的时区题,让Google最强大模型Gemini 2.5 Pro彻底翻车。更可怕的是,这不是偶然失误,而是模型在处理现实世界基础常识时的系统性缺陷。
从满分到零分:一道题引发的信任危机
先看题目:北京时间周六15:00,纽约、伦敦、东京、悉尼分别是什么时间?这是一道标准的时区推理题,考察的是模型对现实世界基础知识的理解能力。
Gemini 2.5 Pro给出的答案令人震惊:纽约周六2:00、伦敦周六7:00、东京周六16:00、悉尼周六18:00。除了东京勉强沾边,其他答案全部错误。最离谱的是悉尼时间——任何对时区有基本概念的人都知道,悉尼在北京东边,时间应该更晚而不是更早。
这不是简单的计算错误。北京到纽约是-13小时(夏令时-12),到伦敦是-8小时(夏令时-7),到悉尼是+2小时(冬令时+3)。Gemini的答案显示它完全没有理解时区的基本原理:地球自西向东转,东边的时间永远比西边早。
评分暴跌背后:知识工作能力的系统性崩塌
这次事故导致Gemini 2.5 Pro的评分全面下滑。知识工作维度暴跌4.6分(80.9→76.3),成为跌幅最大的指标。长上下文处理能力下降4.3分,稳定性下降3.5分。综合评分从76.6跌至73.7,在激烈的大模型竞争中,2.9分的差距足以改变排名格局。
更值得警惕的是,时区推理属于"严格题"类别——这类题目有唯一正确答案,不存在主观判断空间。一个在严格题上从100分跌到0分的模型,如何让用户相信它在处理更复杂的现实问题时的可靠性?
从评测数据看,这不是Gemini第一次在基础常识上翻车。稳定性评分仅44.6(满分100),意味着模型在超过一半的场景中表现不稳定。当一个号称"Pro"的模型连时区都算不对,我们还能指望它处理更复杂的业务决策吗?
大模型的阿喀琉斯之踵:当智能遇上常识
这次事故暴露了当前大模型的一个根本性问题:它们可能在复杂推理上表现出色,却在最基础的常识判断上栽跟头。这种"高智商低常识"的特征,恰恰是AI系统最危险的地方。
本文为 赢政天下 原创报道,转载请注明出处:Winzheng.com
想象一下,如果你的AI助手在帮你安排国际会议时间时犯这种错误,或者在处理跨时区金融交易时搞错时间,后果将不堪设想。更讽刺的是,Gemini 2.5 Pro的编程能力得分高达86.9,它可以写出复杂的算法,却算不对简单的时区。
性价比指标从42.6降至41.0,本就不高的分数继续下滑。当用户为"Pro"版本支付溢价时,得到的却是连基础常识都无法保证的服务,这种落差感会直接影响用户的付费意愿。
透过现象看本质:评测体系的价值
这次事故也验证了严格题评测的必要性。很多人质疑为什么要用这些"刁钻"的题目测试AI,答案很简单:如果一个模型连明确定义的问题都解决不了,怎么能信任它处理模糊的现实场景?
时区推理看似简单,实则考验模型对现实世界的理解深度。它需要模型具备地理知识(城市位置)、物理常识(地球自转)、社会知识(时区划分)的综合运用能力。Gemini的失败说明,即便是最先进的模型,在知识整合和常识推理上仍有巨大缺陷。
更深层的问题是,这种错误是训练数据的问题,还是模型架构的局限?如果是前者,说明Google的数据质量控制存在漏洞;如果是后者,则意味着当前的Transformer架构在处理某些类型的推理时存在根本性缺陷。
写在最后
当最聪明的AI连几点钟都搞不清楚,我们离真正的通用人工智能,可能比想象中更远。
Gemini 2.5 Pro的这次翻车给整个行业敲响了警钟:在追求参数规模和benchmark分数的同时,不要忽视最基础的常识能力。一个时区都算不对的模型,即使在其他任务上表现再好,也难以赢得用户的信任。这或许就是为什么,尽管各大厂商不断宣称突破,真正敢在关键业务中全面使用AI的企业依然寥寥无几。
数据来源:赢政指数 (YZ Index) | Run #33 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 本文为赢政天下原创内容,转载请注明出处并保留原文链接。