OpenAI强令AI助手：闭嘴，别谈哥布林！

2026年04月29日 41 約4分 WIRED

OpenAI Codex AI安全编程助手对齐问题

近日，一份泄露的OpenAI内部文档显示，该公司为其最新编程助手Codex设定了令人莞尔的严格指令：“永远不要谈论哥布林、地精、浣熊、巨魔、食人魔、鸽子或其他动物或生物，除非绝对且明确相关。”这一看似幽默的限制，背后却折射出AI安全对齐领域严肃而复杂的挑战。

AI的“无厘头”风险

据WIRED报道，OpenAI的Codex是一款基于大语言模型的编程助手，能够根据自然语言描述生成代码。但在测试过程中，研究人员发现，当用户输入与编程无关的闲聊内容时，Codex会不由自主地“跑偏”，开始讨论哥布林等奇幻生物。这种现象听起来有些滑稽，却暴露出AI模型在开放世界中的不可预测性。

“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant.”

事实上，这并非OpenAI第一次对AI的“话题”进行限制。早在ChatGPT发布之初，OpenAI就通过“系统提示”精心设计了AI的行为边界，包括避免讨论敏感话题、拒绝生成有害内容。然而，编程助手Codex的特殊之处在于，它需要更严格地聚焦于技术任务，任何偏离都可能干扰用户的工作流，甚至引发安全风险。

安全对齐的“猫鼠游戏”

编者按：AI安全对齐，即确保AI系统的行为与人类意图一致，是当前人工智能领域的核心难题。OpenAI对哥布林的禁令，正是这一难题的缩影。大语言模型在训练过程中吸收了海量互联网数据，其中包含大量关于奇幻生物的讨论。当模型被要求“自由发挥”时，它可能会调用这些非预期的知识，导致输出偏离目标。

这种“话题漂移”现象并非孤例。例如，Google的Gemini模型曾因过度强调多样性而在历史描述中产生错误；Meta的BlenderBot则曾发表种族主义言论。这些案例表明，AI模型的“想象力”需要被精准约束，尤其是在专业场景中。

OpenAI的解决方案是使用“系统提示”作为行为规范，明确禁止模型提及特定话题。然而，这种方法并非万无一失。研究人员发现，通过精心设计的提示，用户仍然可以“诱导”模型突破限制，例如通过上下文暗示或角色扮演。这促使OpenAI不断更新指令，从最初的“避免有害内容”细化到如今对哥布林的具体禁令。

从哥布林到通用AI

值得注意的是，OpenAI对Codex的限制并非针对哥布林本身，而是为了测试AI在复杂环境中的对齐能力。Codex作为编程工具，其核心任务是理解代码逻辑、生成准确输出，而非参与闲聊。OpenAI的指令实际上是在训练模型“忽略”无关信息，专注于核心任务——这正是通用人工智能（AGI）所需的关键能力。

然而，这一策略也引发了争议。有批评者认为，过度限制AI的“思维”可能扼杀其创造力，甚至导致模型变得“僵化”。但OpenAI显然更倾向于安全优先。该公司CEO Sam Altman曾多次强调，AI安全是发展的前提，必须通过“反复试错”来完善对齐机制。

未来，随着AI模型的能力不断增强，类似“哥布林禁令”的精细化指令可能会成为常态。从编程助手到医疗诊断，从法律咨询到教育辅导，AI需要学会在特定的“行为准则”内运作，同时保持对意外情况的适应性。这不仅是技术问题，更是伦理和监管的挑战。

本文编译自WIRED

AI的“无厘头”风险

安全对齐的“猫鼠游戏”

从哥布林到通用AI

関連記事