2025年10月,毕马威发布题为《Total Experience: Redefining Excellence in the Age of Agentic AI》的报告,2026年6月15日正式撤回。GPTZero研究人员核查后发现,报告中45条引用仅有5条能正确指向原始来源,其余均存在误导、部分捏造或表述过于模糊无法验证的问题。
Agentic AI的基本工作机制
Agentic AI指能自主规划步骤、调用工具并迭代执行任务的系统。它不同于仅生成文本的模型,而是通过循环调用外部API、数据库或代码解释器来完成目标。典型流程包括:接收用户指令、分解任务、检索信息、生成中间结果、验证输出并决定下一步。验证环节若缺失或依赖同一模型自检,就容易出现幻觉,即模型生成看似合理却无事实依据的内容。
报告中幻觉的具体表现
GPTZero将此类现象称为“氛围引用”。模型会把真实文献片段拼接,或凭空构造出期刊、作者和页码。毕马威报告中被点名的机构包括瑞银、英国国民保健署、瑞士联邦铁路和伦敦交通局,这些机构均向媒体表示,报告中关于其AI部署规模和效果的描述与事实不符或存在误导。毕马威发言人回应称,已移除报告并将审查发布流程,要求所有员工对AI生成内容进行人工核验。
同类事件的重复出现
2026年5月,安永撤回一份关于忠诚度奖励计划的报告,同样被发现包含虚假脚注。2025年,德勤因澳大利亚政府资助项目中混入AI生成内容,被要求退还部分费用。这些案例均发生在大型咨询公司,且均涉及对外部机构AI使用情况的描述。
验证成本与流程缺口
生成式AI能以低边际成本产出长篇文本,但核对每一条引用需要人工或额外工具。毕马威报告的45条引用中,40条未能通过基本URL或DOI验证,说明其内部流程未强制要求对AI输出进行独立来源比对。类似问题在科研领域也已出现,部分预印本平台开始要求作者提供引用原文截图。
行业信任链条的影响
咨询报告常被企业作为决策参考。当核心数据来源不可靠时,下游决策可能基于错误前提。报告原意是展示Agentic AI如何提升客户体验,结果却因自身幻觉问题引发行业嘲讽。多家被误引机构公开澄清,进一步放大了事件传播。
可执行的缓解措施
第一,在生成阶段限制模型直接输出引用,改为输出待核对的关键词列表,由人工或检索系统补充完整信息。第二,对所有数值和机构名称设置独立验证步骤,记录验证人、时间和原始链接。第三,建立内部黑名单,将已出现幻觉的模型版本或提示模板标记为高风险。毕马威已表示将加强人工监督,但未公布具体时间表。
未来趋势判断
生成式AI工具会继续嵌入咨询工作流。短期内,缺乏强制验证机制的公司仍会面临撤稿风险。中期看,监管或行业协会可能要求对AI辅助生成的内容进行来源披露。长期而言,只有同时满足“可运行”“有依据”“说到做到”的系统,才能在专业服务领域稳定落地。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接