ARS
AI能从训练数据生成小说近逐字复制品
最新研究揭示,大语言模型(LLMs)记忆了比预期更多的训练数据,甚至能输出小说几乎逐字复制的章节。这挑战了AI公司关于数据仅用于‘学习模式’的说辞,可能引发版权和隐私新争议。研究者通过特定提示测试了多家模型,发现它们能重现如《哈利·波特》或《三体》等作品的完整段落,凸显训练数据集污染问题。未来,这或将推动AI训练范式变革。
最新研究揭示,大语言模型(LLMs)记忆了比预期更多的训练数据,甚至能输出小说几乎逐字复制的章节。这挑战了AI公司关于数据仅用于‘学习模式’的说辞,可能引发版权和隐私新争议。研究者通过特定提示测试了多家模型,发现它们能重现如《哈利·波特》或《三体》等作品的完整段落,凸显训练数据集污染问题。未来,这或将推动AI训练范式变革。