词典巨头起诉OpenAI：侵犯近10万篇文章版权

2026年03月17日 489 约5分钟 TechCrunch 已核实

OpenAI 版权诉讼 AI训练数据大英百科全书 Merriam-Webster

在AI技术迅猛发展的当下，版权纠纷已成为生成式AI企业的最大痛点之一。近日，知名百科全书《大英百科全书》（Encyclopedia Britannica）和权威词典美瑞安-韦伯斯特（Merriam-Webster）正式向OpenAI发起诉讼，指控其未经许可使用近10万篇高质量文章训练大型语言模型（LLM）。这一事件不仅暴露了AI数据训练的灰色地带，还可能引发更多内容创作者的集体维权浪潮。

诉讼核心：近10万篇文章被用于AI训练

根据TechCrunch报道，这起诉讼由Amanda Silberling于2026年3月17日撰文披露。原告方声称，OpenAI在开发ChatGPT、GPT系列模型时，大规模抓取并利用了《大英百科全书》和Merriam-Webster的词条、定义及百科文章。这些内容总数接近10万篇，涵盖历史、科学、语言学等多个领域，是人类知识的精华结晶。

Encyclopedia Britannica and Merriam-Webster say that OpenAI violated the copyright of almost 100,000 articles by using them for LLM training.

原告强调，这些文章并非简单的事实罗列，而是经过专业编辑、学者审校的原创作品，具有独特的表达形式和结构。OpenAI的训练过程直接复制了这些内容，导致模型输出时可能直接复现或改写原告知识产权，从而构成侵权。

AI训练数据的版权之争背景

这一诉讼并非孤例。自ChatGPT爆火以来，AI版权纠纷层出不穷。早在2023年，《纽约时报》（New York Times）就起诉OpenAI和微软，指控其使用数百万篇新闻文章训练模型。图片库Getty Images也针对Stability AI的Stable Diffusion发起类似诉讼。此外，作家协会和音乐版权方也纷纷加入战局。

核心争议在于“公平使用”（Fair Use）原则。美国版权法允许有限使用受保护内容用于教育、评论等，但AI企业辩称训练过程属于“转换性使用”，类似于人类学习知识的过程。然而，原告方反驳称，LLM的训练并非被动学习，而是直接摄入海量数据进行参数优化，输出结果高度依赖输入源。

行业数据显示，当前主流LLM如GPT-4、Llama等，训练数据集规模达万亿token级别，主要来源于Common Crawl等互联网爬虫。这些公开数据集虽声称去重，但仍充斥版权内容。《大英百科全书》作为付费订阅服务，其内容本应受严格保护，却被AI“免费”利用。

OpenAI的回应与行业影响

面对诉讼，OpenAI尚未正式回应，但以往案例中，该公司倾向于强调数据来源的合法性，并承诺加强过滤机制。2024年，OpenAI曾与多家出版商达成和解协议，支付许可费使用部分内容训练模型。这或许预示着未来AI企业将转向“授权数据”模式。

对行业而言，此案影响深远。首先，它可能迫使AI公司公开训练数据集细节，推动透明度立法。其次，词典类内容高度结构化，一旦胜诉，将为百科、词典等垂直领域创作者树立标杆。最后，从全球视角看，此案或刺激欧盟《AI法案》和中国《生成式人工智能服务管理暂行办法》进一步收紧数据合规要求。

编者按：AI“知识饕餮”需划清底线

作为AI科技新闻编辑，我认为这一诉讼标志着内容生态与AI生态的正面交锋。AI的强大源于数据，但数据并非空中楼阁，而是无数创作者的血汗结晶。OpenAI等巨头应主动构建许可机制，如与维基百科合作或推出数据补偿基金，方能实现可持续共赢。否则，层层诉讼将拖累创新步伐，最终伤害整个生态。

展望未来，区块链溯源技术和合成数据生成或将成为解决方案。但当下，平衡创新与权益保护，已是AI行业的紧迫课题。

本文编译自TechCrunch，作者：Amanda Silberling，日期：2026-03-17。

诉讼核心：近10万篇文章被用于AI训练

AI训练数据的版权之争背景

OpenAI的回应与行业影响

编者按：AI“知识饕餮”需划清底线

相关推荐