词典巨头起诉OpenAI:侵犯近10万篇文章版权

大名鼎鼎的《大英百科全书》和美瑞安-韦伯斯特词典公司联合起诉OpenAI,指控后者未经授权使用近10万篇词条和文章训练大型语言模型(LLM)。这一诉讼凸显AI训练数据版权争议的升级,可能对生成式AI行业造成深远影响。事件源于OpenAI的ChatGPT等产品依赖海量互联网数据训练,而传统内容提供商寻求赔偿和禁令,以保护知识产权。

在AI技术迅猛发展的当下,版权纠纷已成为生成式AI企业的最大痛点之一。近日,知名百科全书《大英百科全书》(Encyclopedia Britannica)和权威词典美瑞安-韦伯斯特(Merriam-Webster)正式向OpenAI发起诉讼,指控其未经许可使用近10万篇高质量文章训练大型语言模型(LLM)。这一事件不仅暴露了AI数据训练的灰色地带,还可能引发更多内容创作者的集体维权浪潮。

诉讼核心:近10万篇文章被用于AI训练

根据TechCrunch报道,这起诉讼由Amanda Silberling于2026年3月17日撰文披露。原告方声称,OpenAI在开发ChatGPT、GPT系列模型时,大规模抓取并利用了《大英百科全书》和Merriam-Webster的词条、定义及百科文章。这些内容总数接近10万篇,涵盖历史、科学、语言学等多个领域,是人类知识的精华结晶。

Encyclopedia Britannica and Merriam-Webster say that OpenAI violated the copyright of almost 100,000 articles by using them for LLM training.

原告强调,这些文章并非简单的事实罗列,而是经过专业编辑、学者审校的原创作品,具有独特的表达形式和结构。OpenAI的训练过程直接复制了这些内容,导致模型输出时可能直接复现或改写原告知识产权,从而构成侵权。

AI训练数据的版权之争背景

这一诉讼并非孤例。自ChatGPT爆火以来,AI版权纠纷层出不穷。早在2023年,《纽约时报》(New York Times)就起诉OpenAI和微软,指控其使用数百万篇新闻文章训练模型。图片库Getty Images也针对Stability AI的Stable Diffusion发起类似诉讼。此外,作家协会和音乐版权方也纷纷加入战局。

核心争议在于“公平使用”(Fair Use)原则。美国版权法允许有限使用受保护内容用于教育、评论等,但AI企业辩称训练过程属于“转换性使用”,类似于人类学习知识的过程。然而,原告方反驳称,LLM的训练并非被动学习,而是直接摄入海量数据进行参数优化,输出结果高度依赖输入源。

本文由 赢政天下编译整理,更多海外AI资讯,尽在 赢政天下

行业数据显示,当前主流LLM如GPT-4、Llama等,训练数据集规模达万亿token级别,主要来源于Common Crawl等互联网爬虫。这些公开数据集虽声称去重,但仍充斥版权内容。《大英百科全书》作为付费订阅服务,其内容本应受严格保护,却被AI“免费”利用。

OpenAI的回应与行业影响

面对诉讼,OpenAI尚未正式回应,但以往案例中,该公司倾向于强调数据来源的合法性,并承诺加强过滤机制。2024年,OpenAI曾与多家出版商达成和解协议,支付许可费使用部分内容训练模型。这或许预示着未来AI企业将转向“授权数据”模式。

对行业而言,此案影响深远。首先,它可能迫使AI公司公开训练数据集细节,推动透明度立法。其次,词典类内容高度结构化,一旦胜诉,将为百科、词典等垂直领域创作者树立标杆。最后,从全球视角看,此案或刺激欧盟《AI法案》和中国《生成式人工智能服务管理暂行办法》进一步收紧数据合规要求。

编者按:AI“知识饕餮”需划清底线

作为AI科技新闻编辑,我认为这一诉讼标志着内容生态与AI生态的正面交锋。AI的强大源于数据,但数据并非空中楼阁,而是无数创作者的血汗结晶。OpenAI等巨头应主动构建许可机制,如与维基百科合作或推出数据补偿基金,方能实现可持续共赢。否则,层层诉讼将拖累创新步伐,最终伤害整个生态。

展望未来,区块链溯源技术和合成数据生成或将成为解决方案。但当下,平衡创新与权益保护,已是AI行业的紧迫课题。

本文编译自TechCrunch,作者:Amanda Silberling,日期:2026-03-17。