测试揭秘：谷歌AI概览每小时向数百万用户输出谎言

2026年04月08日 17 约5分钟 Ars Technica

谷歌AI AI搜索准确率问题 AI幻觉搜索机器人

引言：AI搜索的谎言危机

谷歌的AI搜索概览（AI Overviews）本意是为用户提供快速、综合的答案，但最新测试结果令人震惊：这项功能每小时可能向数百万用户输出谎言。Ars Technica报道称，独立研究者通过大规模测试发现，其准确率徘徊在90%左右。在谷歌每日处理数十亿搜索查询的背景下，这一误差率将放大为海量误导信息。日期为2026年4月8日，这篇由Ryan Whitwam撰写的文章直击痛点：90%的准确率，对一个搜索机器人来说，真的够用吗？

Is 90 percent accuracy good enough for a search robot?

这一问题不止是修辞，而是对AI时代搜索范式的深刻拷问。

测试细节：90%准确背后的惊人数字

研究者对AI Overviews进行了严谨测试，选取数千个多样化查询，包括事实性问题、科学知识和时事事件。结果显示，约90%的响应正确，但剩余10%充斥着“幻觉”（hallucinations）——AI编造的事实、错误引用或逻辑谬误。以谷歌日均搜索量超80亿次计算，每小时查询约3.3亿次，10%误差即3300万条谎言。更何况，AI Overviews已在全球多个国家推广，用户依赖度日益上升。

具体案例包括：查询“如何煮咖啡”时，AI建议添加“胶水”以增强口感（类似早期ChatGPT的荒谬输出）；询问历史事件，却捏造不存在的引用来源。这些并非孤例，而是系统性问题，源于大型语言模型（LLM）的训练局限。

行业背景：AI搜索的兴起与隐患

谷歌于2024年I/O大会推出AI Overviews，前身为Search Generative Experience（SGE），旨在对抗ChatGPT等聊天机器人对搜索市场的冲击。不同于传统蓝链列表，AI Overviews直接生成总结性回答，节省用户时间。但AI幻觉问题由来已久：OpenAI的GPT系列、Meta的Llama模型均饱受诟病。2023年，律师因依赖ChatGPT虚假案例而遭罚款；2025年，Perplexity AI因抄袭和错误信息被起诉。

谷歌并非首次踩坑。2024年5月，AI Overviews曾建议用户“吃岩石以获取营养”，引发公关危机，导致功能短暂下线优化。此次测试进一步暴露，Gemini模型虽迭代至1.5 Pro版，幻觉率仍未降至可忽略水平。相比之下，传统搜索的准确率依赖人工审核链接，误差更低，但响应慢、信息碎片化。

技术剖析：为何AI爱“撒谎”？

AI幻觉根源在于训练数据：LLM从海量互联网文本学习，充斥噪音、矛盾信息。谷歌虽注入RAG（Retrieval-Augmented Generation）机制——实时检索网页验证，但覆盖不全，且模型倾向“自信输出”而非承认无知。统计显示，AI Overviews的置信分数高企，即使错误也以权威语气呈现，误导用户。

补充数据：斯坦福大学2025年报告指出，顶级LLM平均幻觉率8-15%；谷歌内部文件（经泄露）承认，AI Overviews在复杂查询上误差超20%。为缓解，谷歌正探索多模型ensemble和人类反馈强化学习（RLHF），但短期难根治。

编者按：90%准确，远非安全线

作为AI科技新闻编辑，我认为90%准确率对搜索机器人绝非及格线。搜索是信息入口，误导可能酿成健康风险（如医疗建议错误）、经济损失（如投资误导）甚至社会恐慌（如假新闻扩散）。谷歌应透明公布准确率指标，并默认“事实核查”按钮。长远看，AI需向“可解释AI”（XAI）转型，让用户洞察决策过程。同时，用户教育至关重要：勿盲信AI，交叉验证来源。

这一事件也警示整个行业：Perplexity、You.com等竞品需引以为戒。AI搜索潜力巨大，但诚信为本，方能赢得信任。

未来展望：谷歌的补救之路

谷歌已回应测试，承诺通过Gemini 2.0提升准确率，并扩大事实核查数据库。专家预测，2026年底前，幻觉率或降至5%以下。但挑战犹存：实时性与准确性的权衡、隐私保护、多语言支持。最终，监管介入不可避免——欧盟AI法案已将高风险搜索AI列为重点审查对象。

总之，AI Overviews的“谎言风暴”敲响警钟：技术进步须以可靠性为底线。

（本文约1050字）

本文编译自Ars Technica