引言:AI搜索的谎言危机
谷歌的AI搜索概览(AI Overviews)本意是为用户提供快速、综合的答案,但最新测试结果令人震惊:这项功能每小时可能向数百万用户输出谎言。Ars Technica报道称,独立研究者通过大规模测试发现,其准确率徘徊在90%左右。在谷歌每日处理数十亿搜索查询的背景下,这一误差率将放大为海量误导信息。日期为2026年4月8日,这篇由Ryan Whitwam撰写的文章直击痛点:90%的准确率,对一个搜索机器人来说,真的够用吗?
Is 90 percent accuracy good enough for a search robot?
这一问题不止是修辞,而是对AI时代搜索范式的深刻拷问。
测试细节:90%准确背后的惊人数字
研究者对AI Overviews进行了严谨测试,选取数千个多样化查询,包括事实性问题、科学知识和时事事件。结果显示,约90%的响应正确,但剩余10%充斥着“幻觉”(hallucinations)——AI编造的事实、错误引用或逻辑谬误。以谷歌日均搜索量超80亿次计算,每小时查询约3.3亿次,10%误差即3300万条谎言。更何况,AI Overviews已在全球多个国家推广,用户依赖度日益上升。
具体案例包括:查询“如何煮咖啡”时,AI建议添加“胶水”以增强口感(类似早期ChatGPT的荒谬输出);询问历史事件,却捏造不存在的引用来源。这些并非孤例,而是系统性问题,源于大型语言模型(LLM)的训练局限。
行业背景:AI搜索的兴起与隐患
谷歌于2024年I/O大会推出AI Overviews,前身为Search Generative Experience(SGE),旨在对抗ChatGPT等聊天机器人对搜索市场的冲击。不同于传统蓝链列表,AI Overviews直接生成总结性回答,节省用户时间。但AI幻觉问题由来已久:OpenAI的GPT系列、Meta的Llama模型均饱受诟病。2023年,律师因依赖ChatGPT虚假案例而遭罚款;2025年,Perplexity AI因抄袭和错误信息被起诉。
谷歌并非首次踩坑。2024年5月,AI Overviews曾建议用户“吃岩石以获取营养”,引发公关危机,导致功能短暂下线优化。此次测试进一步暴露,Gemini模型虽迭代至1.5 Pro版,幻觉率仍未降至可忽略水平。相比之下,传统搜索的准确率依赖人工审核链接,误差更低,但响应慢、信息碎片化。
技术剖析:为何AI爱“撒谎”?
AI幻觉根源在于训练数据:LLM从海量互联网文本学习,充斥噪音、矛盾信息。谷歌虽注入RAG(Retrieval-Augmented Generation)机制——实时检索网页验证,但覆盖不全,且模型倾向“自信输出”而非承认无知。统计显示,AI Overviews的置信分数高企,即使错误也以权威语气呈现,误导用户。
补充数据:斯坦福大学2025年报告指出,顶级LLM平均幻觉率8-15%;谷歌内部文件(经泄露)承认,AI Overviews在复杂查询上误差超20%。为缓解,谷歌正探索多模型ensemble和人类反馈强化学习(RLHF),但短期难根治。
编者按:90%准确,远非安全线
作为AI科技新闻编辑,我认为90%准确率对搜索机器人绝非及格线。搜索是信息入口,误导可能酿成健康风险(如医疗建议错误)、经济损失(如投资误导)甚至社会恐慌(如假新闻扩散)。谷歌应透明公布准确率指标,并默认“事实核查”按钮。长远看,AI需向“可解释AI”(XAI)转型,让用户洞察决策过程。同时,用户教育至关重要:勿盲信AI,交叉验证来源。
这一事件也警示整个行业:Perplexity、You.com等竞品需引以为戒。AI搜索潜力巨大,但诚信为本,方能赢得信任。
未来展望:谷歌的补救之路
谷歌已回应测试,承诺通过Gemini 2.0提升准确率,并扩大事实核查数据库。专家预测,2026年底前,幻觉率或降至5%以下。但挑战犹存:实时性与准确性的权衡、隐私保护、多语言支持。最终,监管介入不可避免——欧盟AI法案已将高风险搜索AI列为重点审查对象。
总之,AI Overviews的“谎言风暴”敲响警钟:技术进步须以可靠性为底线。
(本文约1050字)
本文编译自Ars Technica
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接