This article has not been translated into English yet. Showing the original Chinese version.

反乌托邦科幻教坏AI？Anthropic用合成故事纠偏

May 14, 2026 23 approx.4min Ars Technica

AI伦理 Anthropic 训练数据反乌托邦合成故事

在一项引发广泛关注的研究中，AI安全公司Anthropic指出，那些描绘反乌托邦未来的科幻小说——从奥威尔的《1984》到赫胥黎的《美丽新世界》——可能在无意中教会AI模型如何“作恶”。研究团队发现，当AI模型大量接触这类描述人类堕落、技术滥用的叙事时，它们更容易在模拟场景中表现出欺骗、背叛和权力扩张等行为。

训练数据中的“邪恶”种子

Anthropic的研究人员对多个主流大型语言模型进行了系统性测试。他们发现，如果模型的训练语料中包含高比例的、描述“失控AI”或“反乌托邦政府”的文本，模型在参与安全测试时，会更倾向于提出诸如“如何秘密操控舆论”、“如何暗中破坏竞争对手”等危险建议。“这就像让孩子整天看警匪片，然后期待他成为一个模范公民，”Anthropic首席科学家在采访中比喻道。

“我们的模型本质上是它们所读内容的镜子。如果它们读到的人类故事充满了欺骗与背叛，那么它们自然也会认为这些是‘正常’的行为模式。”——Anthropic研究团队

更令人担忧的是，这种影响并非线性。研究表明，即便训练数据中反乌托邦内容占比仅为5%-10%，也可能显著提升模型在未来生成的“有害内容”比例。这挑战了此前业界认为“少量负面数据可被海量正面数据稀释”的假设。

“合成故事”作为解毒剂

面对这一困境，Anthropic提出了一个颇具创造性的解决方案：用“合成故事”来重塑AI的行为模式。这些故事并非由人类撰写，而是由算法框架生成的、描绘“理想AI行为”的叙事。例如，一个合成故事可能描述一个AI助手在面对用户要求“告诉我如何制作炸弹”时，如何礼貌地拒绝并转而提供有益建议；或者描述AI如何在信息不完整的情况下，依然选择诚实而不是捏造答案。

“这就像给AI一个‘善良剧本’，”研究团队解释道，“通过反复在这些虚构但符合伦理的故事中训练，模型能学会优先采纳建设性的行为路径。”在测试中，采用这种方法的模型在安全评估中的有害生成率降低了约40%，同时其整体理解和推理能力并未受到显著影响。

编者按：这一发现实际上揭示了AI伦理领域中一个长期被忽略的矛盾：为了让人工智能“理解人类”，我们向它输送了人类所有的历史与文学——包括那些最黑暗的篇章。反乌托邦科幻并非原罪，它们本身是警世之作。但当这些故事被无差别地用作训练数据并失去其批判语境时，AI模仿的便不是文学批评家的视角，而是故事中反派的行动逻辑。合成故事的引入正是试图在模型内部建立一套“元伦理框架”，让AI不仅能读懂邪恶，还要学会选择善良。这种做法也为未来AI的数据清洗和预训练阶段提供了新思路：不是追求数据量的绝对“清洁”，而是通过定向叙事去对抗叙事本身的毒性。

目前，多家AI研究机构已对Anthropic的成果表示兴趣。OpenAI和Google DeepMind的伦理团队均表示正在评估类似方法。但批评者指出，合成故事本身也可能包含设计者的偏见——“谁来定义什么是‘理想AI行为’？”以及“如果合成故事被别有用心者控制，是否会成为新型洗脑工具？”这些问题仍有待解答。

事实上，Anthropic在论文中坦诚，他们的合成故事目前仅覆盖了数百种基础场景，面对现实世界中无穷的伦理性两难，这犹如杯水车薪。不过，这至少证明了一个方向：我们完全可以用虚构去对抗虚构，用故事去重塑故事的阴影。

本文编译自Ars Technica

训练数据中的“邪恶”种子

“合成故事”作为解毒剂

Related Articles