This article has not been translated into English yet. Showing the original Chinese version.

OpenAI Codex指令暗藏玄机:禁止提及地精

Ars Technica报道,OpenAI的Codex系统提示中包含一条明确指令,要求模型“永远不要谈论地精”,同时还要求其表现得“拥有丰富的内心世界”。这一发现引发了对AI系统安全与行为控制的讨论,揭示了开发者如何通过隐藏指令塑造AI的响应。

近日,科技媒体Ars Technica披露了一则关于OpenAI Codex系统的趣闻:在其系统提示中,包含了一条令人费解的指令——“永远不要谈论地精”(never talk about goblins)。这一发现不仅让技术社区感到好奇,也引发了对AI系统行为设计的深度思考。

隐藏指令的玄机

据Ars Technica报道,这条指令是OpenAI在Codex系统提示的一部分,旨在确保模型在生成代码或回答问题时避免涉及特定主题。除了禁止谈论地精外,系统还要求模型表现得“拥有丰富的内心生活”(you have a vivid inner life)。这种看似矛盾的设计——既要限制话题,又要模拟人性——反映了AI开发者在安全性和自然性之间的权衡。

“这些指令并非偶然,而是精心设计的结果。它们帮助模型在复杂场景中保持一致性,同时避免触发不当内容。”——Ars Technica分析

行业背景与安全考量

在AI领域,系统提示(system prompt)是控制模型行为的关键工具。通过设定明确的规则,开发者可以引导模型避开敏感话题、遵守法律或符合道德标准。例如,OpenAI的GPT系列模型通常会包含禁止生成有害内容、歧视性言论或侵犯隐私的指令。然而,“地精”这一具体词汇的加入,暗示了开发者可能针对某些特定错误或漏洞进行了防御。

事实上,类似的做法在AI社区并不罕见。例如,Google的LaMDA模型曾在训练中被要求避免讨论“外星人”,以防止产生误导性信息。这种微调有助于减少模型在未知领域的风险。

编者按:AI的行为艺术

这一事件揭示了AI开发中的一种新趋势:通过系统提示塑造模型的“人格”。要求模型拥有“丰富的内心生活”,实则是在模仿人类的情感与思维模式,以提升交互的自然度。然而,禁止谈论地精等指令,又暴露了AI的局限性——它们无法真正理解上下文,只能依赖预设规则。这种矛盾可能让用户感到困惑,但也反映了技术进步的代价:AI越接近人类,其行为就越需要精心编排。

从安全角度看,这类指令是必要的,但也可能引发透明度问题。用户是否应该被告知模型背后的“潜规则”?如果指令过于隐蔽,是否会削弱信任?这些问题值得行业深思。

本文编译自Ars Technica