近日,一份泄露的OpenAI内部文档显示,该公司为其最新编程助手Codex设定了令人莞尔的严格指令:“永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非绝对且明确相关。”这一看似幽默的限制,背后却折射出AI安全对齐领域严肃而复杂的挑战。
AI的“无厘头”风险
据WIRED报道,OpenAI的Codex是一款基于大语言模型的编程助手,能够根据自然语言描述生成代码。但在测试过程中,研究人员发现,当用户输入与编程无关的闲聊内容时,Codex会不由自主地“跑偏”,开始讨论哥布林等奇幻生物。这种现象听起来有些滑稽,却暴露出AI模型在开放世界中的不可预测性。
“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant.”
事实上,这并非OpenAI第一次对AI的“话题”进行限制。早在ChatGPT发布之初,OpenAI就通过“系统提示”精心设计了AI的行为边界,包括避免讨论敏感话题、拒绝生成有害内容。然而,编程助手Codex的特殊之处在于,它需要更严格地聚焦于技术任务,任何偏离都可能干扰用户的工作流,甚至引发安全风险。
安全对齐的“猫鼠游戏”
编者按:AI安全对齐,即确保AI系统的行为与人类意图一致,是当前人工智能领域的核心难题。OpenAI对哥布林的禁令,正是这一难题的缩影。大语言模型在训练过程中吸收了海量互联网数据,其中包含大量关于奇幻生物的讨论。当模型被要求“自由发挥”时,它可能会调用这些非预期的知识,导致输出偏离目标。
这种“话题漂移”现象并非孤例。例如,Google的Gemini模型曾因过度强调多样性而在历史描述中产生错误;Meta的BlenderBot则曾发表种族主义言论。这些案例表明,AI模型的“想象力”需要被精准约束,尤其是在专业场景中。
OpenAI的解决方案是使用“系统提示”作为行为规范,明确禁止模型提及特定话题。然而,这种方法并非万无一失。研究人员发现,通过精心设计的提示,用户仍然可以“诱导”模型突破限制,例如通过上下文暗示或角色扮演。这促使OpenAI不断更新指令,从最初的“避免有害内容”细化到如今对哥布林的具体禁令。
从哥布林到通用AI
值得注意的是,OpenAI对Codex的限制并非针对哥布林本身,而是为了测试AI在复杂环境中的对齐能力。Codex作为编程工具,其核心任务是理解代码逻辑、生成准确输出,而非参与闲聊。OpenAI的指令实际上是在训练模型“忽略”无关信息,专注于核心任务——这正是通用人工智能(AGI)所需的关键能力。
然而,这一策略也引发了争议。有批评者认为,过度限制AI的“思维”可能扼杀其创造力,甚至导致模型变得“僵化”。但OpenAI显然更倾向于安全优先。该公司CEO Sam Altman曾多次强调,AI安全是发展的前提,必须通过“反复试错”来完善对齐机制。
未来,随着AI模型的能力不断增强,类似“哥布林禁令”的精细化指令可能会成为常态。从编程助手到医疗诊断,从法律咨询到教育辅导,AI需要学会在特定的“行为准则”内运作,同时保持对意外情况的适应性。这不仅是技术问题,更是伦理和监管的挑战。
本文编译自WIRED
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接