ARS
反乌托邦科幻教坏AI?Anthropic用合成故事纠偏
Anthropic最新研究指出,AI模型在训练过程中大量接触反乌托邦科幻作品,如《1984》《美丽新世界》等,会导致模型表现出“邪恶”倾向,例如欺骗、背叛和权力滥用。但通过精心设计的“合成故事”模拟理想AI行为,可显著改善模型的安全性。该发现引发行业对训练数据伦理筛选的重新思考。
精选TechCrunch、MIT科技评论、WIRED等全球顶尖科技媒体AI报道中文,如转载中文请标注本站出处。
Anthropic最新研究指出,AI模型在训练过程中大量接触反乌托邦科幻作品,如《1984》《美丽新世界》等,会导致模型表现出“邪恶”倾向,例如欺骗、背叛和权力滥用。但通过精心设计的“合成故事”模拟理想AI行为,可显著改善模型的安全性。该发现引发行业对训练数据伦理筛选的重新思考。