AI能重写开源代码，它也能改写许可协议吗？

2026年03月12日 236 约5分钟 Ars Technica 已核实

人工智能开源代码许可协议法律争议 LLM

AI代码革命：从辅助到重写

在AI技术迅猛发展的当下，大型语言模型（LLM）如GitHub Copilot、ChatGPT和Claude已然成为程序员的得力助手。这些工具能瞬间生成复杂代码片段，甚至重构整个项目。但一个关键疑问随之而来：当AI基于开源代码训练并输出类似代码时，它是否同时‘继承’了原代码的许可协议？Ars Technica的Kyle Orland在2026年3月11日文章中直击这一痛点——AI能重写开源代码，但它能重写许可协议吗？这不仅仅是技术问题，更是法律与伦理的战场。

Is it clean "reverse engineering" or just an LLM-filtered "derivative work"?

开源软件运动自20世纪80年代兴起以来，已成为现代软件生态的基石。从Linux内核到TensorFlow库，无数项目以MIT、Apache或GPL等许可协议公开源代码。这些许可明确规定了使用、修改和分发的权利与义务。例如，GPL（GNU通用公共许可）要求任何衍生作品也必须开源，而MIT许可则更宽松，允许闭源使用。

AI训练数据的‘黑箱’困境

LLM的训练依赖海量代码数据集，如The Stack或GitHub公开仓库。这些数据中充斥着各种开源许可的代码。问题在于，AI并非简单复制，而是通过‘学习’模式生成新代码。这引发争议：生成的代码是否构成‘衍生作品’？美国版权法定义衍生作品为‘基于预存作品的显著改编’，但AI的生成过程更像统计预测，而非直接复制。

以GitHub Copilot为例，微软与OpenAI开发的这款工具曾被指控侵犯开源许可。2022年，美国程序员集体诉讼微软，称Copilot输出代码直接复制了开源项目中的片段，且忽略了原许可（如GPL要求开源）。尽管微软辩称这是‘公平使用’（fair use），但法院尚未给出明确裁决。类似地，2024年欧盟启动了对多家AI公司的调查，焦点正是训练数据的许可合规性。

逆向工程 vs 衍生作品：法律灰区解析

支持者认为，AI过程类似于‘逆向工程’——一种合法技术，用于理解代码逻辑而不复制源码。软件工程中，逆向工程常用于兼容性开发，如逆向Windows API以创建Linux兼容层。美国DMCA（数字千年版权法）允许逆向工程用于互操作性目的。AI训练可类比为此：模型学习抽象模式，而非逐行复制。

反对者则视之为‘LLM过滤的衍生作品’。开源基金会（如Software Freedom Conservancy）警告，如果AI输出代码保留了原作的‘本质表达’，则必须遵守原许可。想象一下：一个GPL许可的库被AI‘重写’成功能相同但微调的版本，用于闭源商业产品，这是否规避了GPL的‘传染性’条款？实际案例中，Amazon的CodeWhisperer工具就因类似问题被开源社区抵制。

行业背景中，AI代码生成市场规模预计到2028年将超500亿美元（Gartner数据）。NVIDIA的CUDA工具链、Google的Gemini Code Assist等巨头产品均依赖开源训练数据。这场辩论不仅关乎许可，还涉及数据所有权：谁拥有AI学到的‘知识’？

开源社区的应对与未来趋势

面对AI冲击，开源社区已行动起来。2023年，Linux基金会推出‘开源AI许可指南’，建议项目添加‘机器学习条款’，禁止未经许可用于商业AI训练。Hugging Face平台引入‘BigCode许可’，要求AI衍生作品标注来源。新兴许可如AGPLv3加强了对云服务的约束，确保SaaS产品遵守开源规则。

技术层面，研究者探索‘许可感知AI’：如Meta的Llama Guard模型，能在生成代码时自动检查并应用许可。未来，区块链水印技术或可追踪AI输出与原代码的关联性。

编者按：AI时代许可的重塑迫在眉睫

作为AI科技新闻编辑，我认为这一争议标志着开源范式向‘AI原生’时代的转型。单纯依赖传统许可已不足以应对LLM的‘记忆’能力。建议开发者：1）使用许可扫描工具如FOSSology检查AI输出；2）优先选择宽松许可项目训练模型；3）推动立法明确AI生成的版权归属。否则，开源社区可能面临‘贡献萎缩’危机——谁愿为AI‘免费劳工’？

最终，这一问题考验人类智慧：技术进步不应以牺牲公平为代价。AI重写代码容易，重写规则却需全球共识。

（本文约1050字）

本文编译自Ars Technica

AI代码革命：从辅助到重写

AI训练数据的‘黑箱’困境

逆向工程 vs 衍生作品：法律灰区解析

开源社区的应对与未来趋势

编者按：AI时代许可的重塑迫在眉睫

相关推荐